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内 容 提 要 
本 书 每 章 都 设计 了 案例 研究 ， 以 机 器 学 习 算 法 为 主线 ， 结 合 实例 探讨 了 Spark 的 实际 应 用 。 书 中 没有 
让 人 抓 狂 的 数据 公式 ， 而 是 从 准备 和 正确 认识 数据 开始 讲 起 ， 全 面 涵盖 了 推荐 系统 、 回 归 、 聚 类 、 降 维 等 
经 典 的 机 器 学 习 算法 及 其 实际 应 用 。 
本 书 适合 互联 网 公司 从 事 数 据 分 析 的 人 员 ， 以 及 高 校 数据 挖掘 相关 专业 的 师 生 阅读 参考 。 
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近年 来 , 被 收集 、 存 储 和 分 析 的 数据 量 呈 爆炸 式 增长 ,特别 是 与 网 络 、 移 动 设备 相关 的 数据 ， 
以 及 传感器 产生 的 数据 。 大 规模 数据 的 存储 、 处 理 、 分 析 和 建 模 , 以 前 只 有 Google、Yahoo!、Facebook 
和 Twitter 这 样 的 大 公司 才 涉 及 ， 而 现在 越 来 越 多 的 机 构 都 会 面 对 处 理 海 量 数据 的 挑战 。 


面 对 如 此 量 级 的 数据 以 及 常见 的 实时 利用 该 数据 的 需求 , 人 工 驱 动 的 系统 难以 应 对 。 这 就 催 
生 了 所 谓 的 大 数据 和 机 顺 学 习 系统 ， 它 们 从 数据 中 学 习 并 可 自动 决策 。 


为 了 能 以 低 成 本 实现 对 大 规模 数据 的 文 持 ，Google、Yahoo!、Amazon 和 Facebook 涌 现 了 大 量 
开源 技术 。 这 些 技术 旨 在 通过 在 计算 机 集群 上 进行 分 布 式 数据 存储 和 计算 来 简化 大 数据 处 理 。 


这 些 技术 中 最 广为人知 的 是 Apache Hadoop ， 它 极 大 简化 了 海量 数据 的 存储 ( 通过 Hadoop 
Distributed File System， 即 HDFS ) 和 计算 ( 通过 Hadoop MapReduce， 一 种 在 集群 里 多 个 节点 上 
进行 并 行 计 算 的 框架 ) 流程 ， 并 降低 了 相应 的 成 本 。 


然而 ，MapReduce 有 其 严重 的 缺点 ， 如 启动 任务 时 的 高 开销 、 对 中 间 数 据 和 计算 结果 写 人 磁 
盘 的 依赖 。 这 些 都 使 得 Hadoop 不 适合 迭代 式 或 低 延 迟 的 任务 。Apache Spark 是 一 个 新 的 分 布 式 计 
算 框 架 ， 从 设计 开始 便 注重 对 低 延 迟 任 务 的 优化 ， 并 将 中 间 数 据 和 结果 保存 在 内 存 中 。Spark 提 
供 简洁 明了 的 函数 式 API， 并 完全 兼容 Hadoop 生 态 系统 。 


不 止 如 此 , Spark 还 提供 针对 Scala .Java 和 Python 语言 的 原生 API。 通 过 Scala 和 Python 的 API, Spark 
应 用 程序 可 充分 利用 Scala 或 Python 语言 的 优势 。 这些 优 势 包括 使 用 相关 的 解释 程序 进行 实时 交互 式 
的 程序 编写 。Spark 目 前 还 自 带 一 个 分 布 式 机 带 学 习 和 数据 挖 气 工具 包 MLlib。 经 过 重点 开发 ,这 个 
包 中 已 经 包括 一 些 针 对 常见 计算 任务 的 高 质量 、 可 扩展 的 算法 。 本 书 会 涉及 其 中 的 部 分 算法 。 


在 大 型 数据 集 上 进行 机 顺 学 习 颇 具 挑 成 性 。 这 主要 是 因为 常见 的 机 顺 学 习 算 法 并 非 为 并 行 架 
构 而 设计 。 大 部 分 情况 下 ,设计 这 样 的 算法 并 不 容易 。 机 器 学 习 模型 一 般 具 有 和 迭代 式 的 特性 ， 而 
这 与 Spark 的 设计 目标 一 致 。 并 行 计算 的 框架 有 很 多 ， 但 很 少 能 在 兼顾 速度 、 可 扩展 性 、 内 存 处 
理 和 容错 性 的 同时 ， 还 提供 灵活 、 表 达 力 丰富 的 API。Spark 是 其 中 为 数 不 多 的 一 个 。 

本 书 将 关注 机 器 学 习 技术 的 实际 应 用 。 我 们 会 简要 介绍 机 器 学 习 算 法 的 一 些 理论 知识 , 但 总 
的 来 说 本 书 注 重 技术 实践 。 具 体 来 说 , 我 们 会 通过 示例 程序 和 样 例 代 码 , 举例 说 明 如 何 借助 Spark、 
MLlib 以 及 其 他 常见 的 免费 机 器 学 习 和 数据 分 析 套 件 来 创建 一 个 有 用 的 机 器 学 习 系统 。 
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本 书 内 容 


第 1 章 “Spark 的 环境 搭建 与 运行 ”， 会 讲 到 如 何 安装 和 搭建 Spark 框 架 的 本 地 开发 环境 ， 以 
及 怎样 使 用 Amazon EC2 在 云端 创建 Spark 集 群 。 之 后 介绍 Spark 编 程 模型 和 API。 最 后 分 别 用 Scala、 
Java 和 Python 语言 创建 一 个 简单 的 Spark 应 用 。 


第 2 章 “ 设 计 机 器 学 习 系统 ”， 会 展示 一 个 贴 合 实际 的 机 需 学 习 系 统 案例 。 随 后 会 针对 该 案 
例 设计 一 个 基于 Spark 的 智能 系统 所 对 应 的 高 层 架 构 。 


第 3 章 “Spark 上 数据 的 获取 、 处 理 与 准备 ”, 会 详细 介绍 如 何 从 各 种 免费 的 公开 渠道 获取 用 
于 机 器 学 习 系统 的 数据 。 我 们 将 学 到 如 何 进行 数据 处 理 和 清理 ， 并 通过 可 用 的 工具 、 库 和 Spark 
函数 将 它们 转换 为 符合 要 求 的 数据 ， 使 之 具备 可 用 于 机 器 学 习 模 型 的 特征 。 


第 4 章 “ 构 建 基于 Spark 的 推荐 引擎 ”, 展示 了 如 何 创建 一 个 基于 协同 过 滤 的 推荐 模型 。 该 模 
型 将 用 于 向 给 定 用 户 推荐 物品 ,以 及 创建 与 给 定 物品 相似 的 物品 。 这 一 章 还 会 讲 到 如 何 使 用 标准 
指标 来 评估 推荐 模型 的 效果 。 
第 5 章 “Spark 构 建 分 类 模型 ”， 阐述 如 何 创建 二 元 分 类 模型 ， 以 及 如 何 利 用 标准 的 性 能 评 佑 
指标 来 评估 分 类 效果 。 

第 6 章 “Spark 构 建 回归 模型 ”， 扩展 了 第 5 章 中 的 分 类 模型 以 创建 一 个 回归 模型 ， 并 详细 介 
绍 回归 模型 的 评估 指标 。 

第 7 章 “Spark 构 建 聚 类 模型 ”， 探 索 如 何 创建 聚 类 模型 以 及 相关 评 佑 方法 的 使 用 
到 如 何 分 析 和 可 视 化 聚 类 结果 。 

第 8 章 “Spark 应 用 于 数据 降 维 ”， 将 通过 多 种 方法 从 数据 中 提取 其 内 在 结构 并 降低 其 维度 。 
你 会 学 到 一 些 常 见 的 降 维 方法 , 以 及 如 何 对 它们 进行 应 用 和 分 析 。 这 里 还 会 讲 到 如 何 将 降 维 的 结 
果 作 为 其 他 机 器 学 习 模 型 的 输入 。 

第 9 章 “Spark 高 级 文本 处 理 技术 ”， 介 绍 处 理 大 规模 文本 数据 的 方法 。 这 包括 从 文本 提取 特 
征 以 及 处 理 文本 数据 常见 的 高 维特 征 的 方法 。 


第 10 章 “Spark Streaming 在 实时 机 器 学 习 上 的 应 用 ”， 对 Spark Streaming 进 行 综述 ， 并 介 
绍 在 流 数 据 上 的 机 器 学 习 中 它 如 何 实现 对 在 线 和 增 量 学 习 方 法 的 支持 。 


你 会 学 
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预备 知识 


本 书 假设 读者 已 有 基本 的 Scala 、Java 或 Python 编程 经 验 ， 以 及 机 需 学 习 、 统 计 学 和 数据 分 析 
方面 的 基础 知识 。 
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本 书目 标 


本 书 的 预期 读者 是 初中 级 数据 科学 研究 者 、 数 据 分 析 师 、 软 件 工 程 师 和 对 大 规模 环境 下 的 机 
右 学 习 或 数据 挖掘 感 兴趣 的 人 。 读 者 不 需要 熟悉 Spark， 但 若 具 有 统计 、 机 器 学 习 相 关 软 件 ( 比 
如 MATLAB 、scikit-learmn 、Mahout、R 和 Weka 等 ) 或 分 布 式 系统 ( 如 Hadoop ) 的 实践 经 验 ， 会 很 
有 帮助 。 


排版 约定 
在 本 书 中 ， 你 会 发 现 一 些 不 同 的 文本 样式 ， 用 以 区 别 不 同 种 类 的 信息 。 下 面 举 例 说 明 。 
代码 段 的 格式 如 下 : 
val conf = new SparkConf() 
.SetAppName ("Test Spark App") 


.SetMaster ("local[4]") 
val sc = new SparkContext (conf) 


所 有 的 命令 行 输 入 或 输出 的 格式 如 下 : 


>tar xfvz spark-1.2.0-bin-hadoop2.4.tgz 


>cd spark-1.2.0-bin-hadoop2.4 


新 术语 和 重点 词汇 以 楷体 标示 。 屏 幕 、 目 录 或 对 话 框 上 的 内 容 这 样 表示 :“ 这 些 信息 可 以 从 
AWS 主 页 上 依次 点 击 “Account” | “Security Credentials” | “Access Credentials” 看 到 。” 


| 人 人 这 个 图 标 表示 警告 或 需要 特别 注意 的 内 容 。 ] 
ea 这 个 图 标 表 示 提 示 或 者 技巧 。 
读者 反馈 


欢迎 提出 反馈 。 如 果 你 对 本 书 有 任何 想法 ,喜欢 它 什 么 ,不 喜欢 它 什么 ,请 让 我 们 知道 。 要 
写 出 真正 对 大 家 有 帮助 的 书 ， 了 解读 者 的 反馈 很 重要 。 


一 般 的 反馈 ， 请 发 送 电 子 邮件 至 feedback@packtpub.com， 并 在 邮件 主题 中 包含 书 名 。 


如 果 你 有 某 个 主题 的 专业 知识 , 并 且 有 兴趣 写成 或 帮助 促成 一 本 书 , 请 参考 我 们 的 作者 指南 
http:/www.packtpub.com/authors。 


< 
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客户 支持 
现在 ， 你 是 一 位 自豪 的 Packt 图 书 的 拥有 者 ， 我 们 会 尽 全 力 帮 你 充分 利用 你 手中 的 书 。 


下 载 示 例 代码 


你 可 以 用 你 的 账户 从 http://www.packtpub.com 下 载 所 有 已 购买 Packt 图 书 的 示例 代码 文件 。 如 
果 你 从 其 他 地 方 购买 本 书 ， 可 以 访问 http://www.packtpub.com/support 并 注册 ， 我 们 将 通过 电子 邮 
件 把 文件 发 送 给 你 。 


勘误 表 

虽然 我 们 已 尽力 确保 本 书 内 容 正 确 ， 但 出 错 仍旧 在 所 难免 。 如 果 你 在 我 们 的 书 中 发 现 错误 ， 
不 管 是 文本 还 是 代码 , 希望 能 告知 我 们 ， 我们 不 胜 感激 。 这 样 做 可 以 减少 其 他 读者 的 困扰 ,帮助 
我 们 改进 本 书 的 后 续 版 本 。 如 果 你 发 现任 何 错误 ,请 访问 http://www.packtpub.com/submit-errata 
提交 ， 选择 你 的 书 ， 点 击 勘 误 表 提交 表单 的 链接 ， 并 输入 详细 说 明 。 勘 误 一 经 核实 ,你 的 提交 将 
被 接受 ， 此 勘误 将 上 传 到 本 公司 网 站 或 添加 到 现 有 勘误 表 。 从 http:/www.packtpub.conysupport 选 
择 书 名 就 可 以 查看 现 有 的 勘误 表 。 


侵权 行为 

互联 网 上 的 盗版 是 所 有 媒体 都 要 面 对 的 问题 。Packt 非 常 重视 保护 版 权 和 许可 证 。 如 果 你 发 
现 我 们 的 作品 在 互联 网 上 被 非法 复制 , 不 管 以 什么 形式 , 都 请 立即 为 我 们 提供 位 置地 址 或 网 站 名 
称 ， 以 便 我 们 可 以 寻求 补救 。 
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Spark 的 环境 搭建 与 运行 


Apache Spark 是 一 个 分 布 式 计算 框架 ， 旨 在 简化 运行 于 计算 机 集群 上 的 并 行程 序 的 编写 。 该 
框架 对 资源 调度 , 任务 的 提交 、 执 行 和 跟踪 ,节点 间 的 通信 以 及 数据 并 行 处 理 的 内 在 底层 操作 都 
进行 了 抽象 , 它 提供 了 一 个 更 高 级 别 的 API 用 于 处 理 分 布 式 数 据 。 从 这 方面 说 , 它 与 Apache Hadoop 
等 分 布 式 处 理 框架 类 似 。 但 在 底层 架构 上 ，Spark 与 它们 有 所 不 同 。 


Spark 起 源 于 加 利 福利 亚 大 学 伯克利 分 校 的 一 个 研究 项 目 。 学 校 当 时 关注 分 布 式 机 带 学 习 算 
法 的 应 用 情况 。 因 此 ，Spark 从 一 开始 便 为 应 对 迭代 式 应 用 的 高 性 能 需求 而 设计 。 在 这 类 应 用 中 ， 
相同 的 数据 会 被 多 次 访问 。 该 设计 主要 靠 利 用 数据 集 内 存 缓存 以 及 启动 任务 时 的 低 延 迟 和 低 系 统 
开销 来 实现 高 性 能 。 再 加 上 其 容错 性 、 灵 活 的 分 布 式 数据 结构 和 强大 的 函数 式 编程 接口 ，Spark 
在 各 类 基于 机 器 学 习 和 和 迭代 分 析 的 大 规模 数据 处 理 任务 上 有 广泛 的 应 用 ， 这 也 表明 了 其 实用 性 。 


关于 Spark 项 目的 更 多 背景 信息 ， 包 括 其 开发 的 核心 研究 论文 ， 可 从 项 目的 
历史 介绍 


介绍 页 面 中 查 到 : http://spark.apache.org/community.html#history。 


Spark 文 持 四 种 运行 模式 。 


口 本 地 单机 模式 : 所 有 Spark 进 程 都 运行 在 同一 个 Java 虚 拟 机 ( Java Vitural Machine, JVM ) 中 。 
口 集群 单机 模式 : 使 用 Spark 自 己 内 置 的 任务 调度 框架 。 

口 基于 Mesos: Mesos 是 一 个 流行 的 开源 集群 计算 框架 。 

口 基于 YARN: 即 Hadoop 2， 它 是 一 个 与 Hadoop 关 联 的 集群 计算 和 资源 调度 框架 。 


本 章 主要 包括 以 下 内 容 。 


口 下 载 Spark 二 进 制 版 本 并 搭建 一 个 本 地 单机 模式 下 的 开发 环境 。 各 章 的 代码 示例 都 在 该 环 
境 下 运行 。 

口 通过 Spark 的 交互 式 终端 来 了 解 它 的 编程 模型 及 其 API。 

口 分 别 用 Scala 、Java 和 Python 语言 来 编写 第 一 个 Spark 程 序 。 


口 在 Amazon 的 Elastic Cloud Compute ( EC2 ) 平台 上 架设 一 个 Spark 集 群 。 相 比 本 地 模式 ， 该 
集群 可 以 应 对 数据 量 更 大 、 计 算 更 复杂 的 任务 。 
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2 第 1 章 Spark 的 环境 搭建 与 运行 


但 这 不 在 本 书 讨论 范围 内 。 相 关 信 息 可 参考 http://aws.amazon.com/articles/ 


| 通过 自 定义 脚本 ,Spark 同 样 可 以 运行 在 Amazon 的 Elastic MapReduce 服 务 上 ， 
4926593393724923; 本 书写 作 时 ， 这 篇 文章 是 基于 Spark 1.1.0 写 的 。 


如 果 读 者 曾 构建 过 Spark 环 境 并 有 Spark 程 序 编写 基础 ， 可 以 跳 过 本 章 。 


1.1 Spark 的 本 地 安装 与 配置 

Spark 能 通过 内 置 的 单机 集群 调度 器 来 在 本 地 运行 。 此 时 , 所 有 的 Spark 进 程 运 行 在 同一 个 Java 
虚拟 机 中 。 这 实际 上 构造 了 一 个 独立 、 多 线程 版 本 的 Spark 环 境 。 本 地 模式 很 适合 程序 的 原型 设 
计 、 开 发 、 调 试 及 测试 。 同 样 ， 它 也 适应 于 在 单机 上 进行 多 核 并 行 计 算 的 实际 场景 。 

Spark 的 本 地 模式 与 集群 模式 完全 兼容 ， 本 地 编写 和 测试 过 的 程序 仅 需 增 加 少许 设置 便 能 在 
集群 上 运行 。 

本 地 构建 Spark 环 境 的 第 一 步 是 下 载 其 最 新 的 版 本 包 (本 书写 作 时 为 1.2.0 版 )。 各 个 版 本 的 版 
本 包 及 源 代码 的 GitHub 地 址 可 从 Spark 项 目的 下 载 页 面 找 到 : http:/spark.apache.org/downloads.html。 


>》 Spark 的 在 线 文档 http:/spark.apache.org/docs/latest/ 涵 盖 了 进一步 学 习 Spark 

QQ 所 需 的 各 种 资料 。 强 烈 推 荐 读者 浏览 查阅 。 

为 了 访问 HDFS ( Hadoop Distributed File System，Hadoop 分 布 式 文件 系统 ) 以 及 标准 或 定 甫 
的 Hadoop 输 入 源 ，Spark 的 编译 需要 与 Hadoop 的 版 本 对 应 。 上 述 下 载 页 面 提 供 了 针对 Hadoop 1、 
CDH4 (Cloudera 的 Hadoop 发 行 版 )、MapR 的 Hadoop 发 行 版 和 Hadoop 2 ( YARN ) 的 预 编译 二 进 
制 包 。 除 非 你 想 构 建 针 对 特定 版 本 Hadoop 的 Spark， 和 否则 建议 你 通过 如 下 链接 从 Apache 镜 像 下 载 
Hadoop 2.4 预 编译 版 本 : http://www.apache.org/dyn/closer.cgi/spark/spark-1.2.0/spark-1.2.0-bin- 
hadoop2.4.tgz。 


Spark 的 运行 依赖 Scala 编 程 语 言 〈 本 书写 作 时 为 2.10.4 版 )。 好 在 预 编 译 的 二 进 制 包 中 已 包含 
Scala 运 行 环 境 ， 我 们 不 需要 男 外 安装 Scala 便 可 运行 Spark。 但 是 ，JRE (Java 运行 时 环境 ) 或 JDK 
( Java 开 发 套件 ) 是 要 安装 的 ( 相应 的 安装 指南 可 参见 本 书 代 码 包 中 的 软 硬 件 列表 )。 


下 载 完 上 述 版 本 包 后 ， 解 压 ， 并 在 终端 进入 解压 时 新 建 的 主 目录 : 


二 


>tar xfvz spark-1.2.0-bin-hadoop2.4.tgz 
>cd spark-1.2.0-bin-hadoop2.4 


用 户 运行 Spark 的 脚本 在 该 目录 的 bin 目 录 下 。 我 们 可 以 运行 Spark 附 带 的 一 个 示例 程序 来 测试 
是 否 一 切 正常 : 
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1.2 Spark 集群 3 


>./bin/run-example org.apache .spark.examples .SparkPi 


该 命令 将 在 本 地 单机 模式 下 执行 SparkPi 这 个 示例 。 在 该 模式 下 ， 所 有 的 Spark 进 程 均 运 行 于 
同一 个 JVM 中 ， 而 并 行 处 理 则 通过 多 线程 来 实现 。 默认 情况 下 ,该 示例 会 启用 与 本 地 系统 的 CPU 
核心 数目 相同 的 线程 。 示 例 运 行 完 ， 应 可 在 输出 的 结尾 看 到 类 似 如 下 的 提示 : 


14/11/27 20:58:47 INFO SparkContext : Job finished: reduce at SparkPi.scala:35， 
took 0.723269s 
Pi is roughly 3.1465 


要 在 本 地 模式 下 设置 并 行 的 级 别 , 以 local [N] 的 格式 来 指定 一 个 master 变 量 即 可 。 上 述 参 
数 中 的 N 表 示 要 使 用 的 线程 数目 。 比 如 只 使 用 两 个 线程 时 ， 可 输入 如 下 命令 : 


>MASTER=local[2] ./bin/run-example org.apache.spark.examples.SparkPi 


1.2 Spark 集群 


Spark 集 群 由 两 类 程序 构成 : 一 个 驱动 程序 和 多 个 执行 程序 。 本 地 模式 时 所 有 的 处 理 都 运行 
在 同一 个 JVM 内 ， 而 在 集群 模式 时 它们 通常 运行 在 不 同 的 节点 上 。 


举例 来 说 ， 一 个 采用 单机 模式 的 Spark 集 群 (即使 用 Spark 内 置 的 集群 管理 模块 ) 通常 包括 : 


口 一 个 运行 Spark 单 机 主 进 程 和 驱动 程序 的 主 节点 ; 
口 各 自 运行 一 个 执行 程序 进程 的 多 个 工作 节点 。 


在 本 书 中 ， 我 们 将 使 用 Spark 的 本 地 单机 模式 做 概念 讲解 和 举例 说 明 ， 但 所 用 的 代码 也 可 运 
行 在 Spark 集 群 上 。 比 如 在 一 个 Spark 单 机 集群 上 运行 上 述 示例 ， 只 需 传人 主 节 点 的 URL 即 可 : 


>MASTER=spark://IP:PORT ./bin/run-example org.apache .spark.examples.SparkPi 

其 中 的 ITP 和 PORT 分 别 是 主 节点 卫 地 址 和 端口 号 。 这 是 告诉 SparkiF 示 例 程序 运行 在 主 节 点 所 
对 应 的 集群 上 。 

Spark 集 群 管理 和 部 署 的 完整 方案 不 在 本 书 的 讨论 范围 内 。 但 是 ， 本 章 后 面 会 对 Amazon EC2 
集群 的 设置 和 使 用 做 简要 说 明 。 


Spark 集 群 部 署 的 概要 介绍 可 参见 如 下 链接 : 


| 口 http://spark.apache.org/docs/latest/cluster-overview.html 


口 http:/spark.apache.org/docslatestsubmitting-applications.html 
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1.3 Spark 编程 模型 


在 对 Spark 的 设计 进行 更 全 面 的 介绍 前 ， 我 们 先 介 绍 SparkCcontext 对 象 以 及 Spark shell。 后 
面 将 通过 它们 来 了 解 Spark 编 程 模型 的 基础 知识 。 


虽然 这 里 会 对 Spark 的 使 用 进行 简要 介绍 并 提供 示例 ， 但 要 想 了 解 更 多 ， 可 
参考 下 面 这 些 资料 。 


Ul 

口 Spark 快 速 入 门 : http://spark.apache.org/docs/latest/quick-start.html。 

口 针对 Scala、Java 和 Python 的 《Spark 编 程 指南 》: http://spark.apache.org/docs/ 
latest/programming-guide.html。 


1.3.1 SparkContext 类 与 SparkConf 类 


任何 Spark 程 序 的 编写 都 是 从 sparkContext (或 用 Java 编 写 时 的 JavaSparkCcontext ) 开始 
的 。Sparkcontext 的 初始 化 需要 一 个 sparkconf 对 象 ， 后 者 包含 了 Spark 集 群 配置 的 各 种 参数 
(比如 主 节 点 的 URL )。 


初始 化 后 , 我 们 便 可 用 sparkcontext 对 象 所 包含 的 各 种 方法 来 创建 和 操作 分 布 式 数据 集 和 
共享 变量 。Spark shell ( 在 Scala 和 Python 下 可 以 ， 但 不 支持 Java ) 能 自动 完成 上 述 初 始 化 。 若 要 
用 Scala 代 码 来 实现 的 话 ， 可 参照 下 面 的 代码 : 

val conf = new SparkConf () 

.SetAppName ("Test Spark App") 


.SetMaster ("local[4]") 
val sc = new SparkContext (conf) 


这 段 代 码 会 创建 一 个 4 线程 的 Sparkcontext 对 象 ， 并 将 其 相应 的 任务 命名 为 Test spark 
APP。 我 们 也 可 通过 如 下 方式 调用 sparkcontext 的 简单 构造 函数 ， 以 默认 的 参数 值 来 创建 相应 
的 对 象 。 其 效果 和 上 述 的 完全 相同 : 


val sc = new SparkContext ("local[4]", "Test Spark App") 
下 载 示 例 代码 
~ . 
ea 你 可 从 http:/www.packtpub.com 下 载 你 账号 购买 过 的 Packt 书 籍 所 对 应 的 示 
例 代码 。 若 书 是 从 别处 购买 的 ， 则 可 在 https:/www.packtpub.com/books/content/ 


support 注 册 ， 相 应 的 代码 会 直接 发 送 到 你 的 电子 邮箱 。 
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1.3.2 Spark shell 


Spark 支 持 用 Scala 或 Python REPL ( Read-Eval-Print-Loop， 即 交互 式 shell ) 来 进行 交互 式 的 程 
序 编写 。 由 于 输入 的 代码 会 被 立即 计算 ，shell 能 在 输入 代码 时 给 出 实时 反馈 。 在 Scala shell 里 ， 
命令 执行 结果 的 值 与 类 型 在 代码 执行 完 后 也 会 显示 出 来 。 


要 想 通 过 Scala 来 使 用 Spark shell， 只 需 从 Spark 的 主 目录 执行 ./bin/spark-shel1。 它 会 启 
动 Scala shell 并 初始 化 一 个 SparkContext 对 象 。 我 们 可 以 通过 sc 这 个 Scala 值 来 调用 这 个 对 象 。 
命令 的 终端 输出 应 该 如 下 图 所 示 : 


四 日 日 spark-1.2.0-bin-hadoop2.4 一 java 一 119x61 we 


Nicks-MacBook-Pro:spark-1,2.0-bin-hadoop2.4 Nick$ ./bin/spark-shell 

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 

14/11/27 22:02:26 INF0 SecurityManager: Changing view acls to: Nick 

14/11/27 22:02:26 INF0 SecurityManager: Changing modify acls to: Nick 

14/11/27 22:92:26 INF0 SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view per 
missions: Set(Nick); users with modify permissions: Set(Nick) 

14/11/27 22:02:26 INF0 HttpServer: Starting HTTP Server 

14/11/27 22:02:26 INFO Utils: Successfully started service 'HTTP class server' on port 55288. 

Welcome to 


NE De 

MEM AL/ 

/一 / .一 八 _,-/_-/ I/\\ version 1.2.0 
/_/ 


Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server \M, Java 1.7.9_60) 

Type in expressions to have them evaluated,. 

Type :help for more information. 

14/11/27 22:02:30 WARN Utils: Your hostname, Nicks-MacBook-Pro.local resolves to a Loopback address: 127.0.0.1; using 1 
0.0.0.7 instead (on interface en0) 

14/11/27 22:02:30 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address 

14/11/27 22:02:30 INF0 SecurityManager: Changing view acls to: Nick 

14/11/27 22:02:30 INF0 SecurityManager: Changing modify acls to: Nick 

14/11/27 22:92:30 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view per 
missions: Set(Nick); users with modify permissions: Set(Nick) 

14/11/27 22:02:31 INF0 Slf4jLogger: Slf4jLogger started 

14/11/27 22:02:31 INFO Remoting: Starting remoting 

14/11/27 22:02:31 INF0 Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@10.0.90.7:55290] 
14/11/27 22:02:31 INFO Utils: Successfully started service ‘sparkDriver’ on port 55290 

14/11/27 22:02:31 INFO SparkEnv: Registering MapOutputTracker 

14/11/27 22:02:31 INF0 SparkEnv: Registering BlockManagerMaster 

14/11/27 22:02:31 INFO DiskBlockManager: Created local directory at /var/foUders/_L/96wxLjtl3wqgm7r68j1c44_r90900gnVT/Ssp 
ark-local-20141127228231-634b 

14/11/27 22:02:31 INFO MemoryStore: MemoryStore started with capacity 265.4 MB 

14/11/27 22:02:31 WARN NativeCodeLoader: Unable to load native-hadoop Library for your platform... using builtin-java < 
lasses where applicable 

14/11/27 22:02:31 INFO HttpFileServer: HTTP File server directory is /var/foLUders/_L/96wxLjtl3wqgn7r68j1c44_r9000gn/VT/S 
park-8595fd59-f23f-4b83-8cda-5b7b68534335 

14/11/27 22:02:31 INF0 HttpServer: Starting HTTP Server 

14/11/27 22:02:31 INFO Utils: Successfully started service 'HTTP file server’' on port 55291, 

14/11/27 22:02:32 INF0 Utils: Successfully started service 'SparkUI' on port 4040. 

14/11/27 22:02:32 INFO SparkUI: Started SparkUI at http://10.0.0.7:4040 

14/11/27 22:02:32 INFO Executor: Using REPL class URI: http://10.0.0.7:55288 

14/11/27 22:92:32 INF0 AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://sparkDriver@10.0.0.7:55298/user/Heartbeat 
Receiver 

14/11/27 22:02:32 INFO NettyBlockTransferService: Server created on 55292 

14/11/27 22:92:32 INF0 BlockManagerMaster: Trying to register BlockManager 

14/11/27 22:02:32 INF0 BlockManagerMasterActor: Registering block manager localhost:55292 with 265.4 MB RAM, BlockManag 
erIld(<driver>, localhost, 55292) 

14/11/27 22:92:32 INF0 BlockManagerMaster: Registered BlockManager 

14/11/27 22:02:32 INFO SparkILoop: Created spark context,. 

Spark context available as SC 


scala> 目 


要 想 在 Python shell 中 使 用 Spark, 直接 运行 . /bin/ 令 即 可 。 与 Scala shell 类 似 , Python 
下 的 Sparkcontext 对 象 可 以 通过 Python 变量 sc 来 调用 。 上 述 命令 的 终端 输出 应 该 如 下 图 所 示 : 
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四 日 日 spark-1.2.0-bin-hadoopz2.4 一 java 一 119x61 这 


Nicks-MacBook-Pro:spark-1.2,0-bin-hadoop2.4 Nick$ ,./bin/pyspark 

Python 2.7.8 |Anaconda 2.9.1 (x86_64)| (default, Aug 21 2014, 15:21:46) 

[GCC 4.2.1 (Apple Inc. build 5577)] on darwin 

Type "help", "copyright", "credits" or "license" for more information。 

Anaconda is brought to you by Continuum Analytics. 

Please check out: http://continuum,io/thanks and https://binstar,.org 

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 

14/11/27 22:05:24 WARN Utils: Your hostname, Nicks-MacBook-Pro.local resolves to a loopback address: 127.0.0.1; using 1 
.9.90.7 instead (on interface en9) 

14/11/27 22:05:24 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address 

14/11/27 22:05:24 INF0 SecurityManager: Changing view acls to: Nick 

14/11/27 22:05:24 INFO SecurityManager: Changing modify acls to: Nick 

14/11/27 22:05:24 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view per 
Imissions: Set(Nick); users with modify permissions: Set(Nick) 

14/11/27 22:05:24 INFO S\lf4jLogger: Slf4jLogger started 

14/11/27 22:05:24 INFO Remoting: Starting remoting 

14/11/27 22:65:25 INFO Remoting: Remoting started; listening on addresses : [akka.tcp://sparkDriver@10.0.0.7:55313] 
14/11/27 22:05:25 INFO Utils: Successfully started service 'sparkDriver' on port 55313. 

14/11/27 22:05:25 INFO SparkEnv: Registering MapOutputTracker 

14/11/27 22:05:25 INFO SparkEnv: Registering BlockManagerMaster 

14/11/27 22:05:25 INFO DiskBlockManager: Created local directory at /var/folders/_l/Q6wxljt1i3wqgm7r08jlc44_re000gn/T/sp 
ark-Locat-20141127220525-7631 

14/11/27 22:05:25 INFO MemoryStore: MemoryStore started with capacity 265.4 MB 

14/11/27 22:05:25 WARN NativeCodeLoader: Unable to load native-hadoop library for your platfors... using builtin-java < 
lasses where applicable 

14/11/27 22:05:25 INFO HttpFileServer: HTTP File server directory is /var/foUders/_L/96wxtUjt1l3wqgm7r08j tc44_r0000gnVT/S 
park-eSb58a14-c102-48bd-a084a-ba69485dfbea 

14/11/27 22:05:25 INFO HttpServer: Starting HTTP Server 

14/11/27 22:05:25 INFO Utils: Successfully started service 'HTTP file server' on port 55314. 

14/11/27 22:05:25 INFO Utils:; Successfully started service ‘SparkUI' on port 49040. 

14/11/27 22:05:25 INFO SparkUI: Started SparkUI at http://10.0.0,7:4040 

14/11/27 22:05:25 INFO AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://sparkDriver@10.0.0.7:55313/user/Heartbeat 
Receiver 

14/11/27 22:05:25 INFO NettyBlockTransferService: Server created on 55315 

14/11/27 22:05:25 INFO BlockManagerMaster: Trying to register BlockManager 

14/11/27 22:05:25 INFO BlockManagerMasterActor: Registering block manager localhost:55315 with 265.4 MB RAM, BlockManag 
lerIld(<driver>, localhost, 55315) 

14/11/27 22:05:25 INFO BlockManagerMaster: Registered BlockManager 

IWelcome to 


VE Fs 
NW 

/ 。_/ 八 _,_/_/ /A/\\ version 1.2.0 
kd 


Using Python version 2.7.8 (default, Aug 21 2014 15:21:46) 
SparkContext available as SC 
>>> 8 


1.3.3 ”弹性 分 布 式 数据 集 


RDD ( Resilient Distributed Dataset， 弹 性 分 布 式 数据 集 ) 是 Spark 的 核心 概念 。 一 个 RDD 
代表 一 系列 的 “记录 ”( 严格 来 说 ， 某 种 类 型 的 对 象 )。 这些 记录 被 分 配 或 分 区 到 一 个 集群 的 多 个 
节点 上 (在 本 地 模式 下 ， 可 以 类 似 地 理解 为 单个 进程 里 的 多 个 线程 上 )。Spark 中 的 RDD 具 备 容错 
性 ， 即 当 某 个 节点 或 任务 失败 时 ( 因 非 用 户 代 码 错 误 的 原因 而 引起 ， 如 硬件 故障 、 网 络 不 通 等 )， 

RDD 会 在 余下 的 节点 上 自动 重建 ， 以 便 任 务 能 最 终 完成 。 


1. 创建 RDD 
RDD 可 从 现 有 的 集合 创建 。 比 如 在 Scala shell 中 : 


val eollectiorn = List (a MB "ol "ot, Ter) 
val rddFromCollection = sc.parallelize(collection) 


RDD 也 可 以 基于 Hadoop 的 输入 源 创 建 , 比如 本 地 文件 系统 、HDFS 和 Amazon S3。 基于 Hadoop 
的 RDD 可 以 使 用 任何 实现 了 Hadoop InputFormat 接 口 的 输入 格式 , 包括 文本 文件 、 其 他 Hadoop 
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标准 格式 、HBase 、Cassandra 等 。 以 下 举例 说 明 如 何 用 一 个 本 地 文件 系统 里 的 文件 创建 RDD: | 


val rddFromTextFile = sc.textFile("LICENSE") 


上 述 代 码 中 的 textFile 函 数 (方法 ) 会 返回 一 个 RDD 对 象 。 该 对 象 的 每 一 条 记录 都 是 一 个 
表示 文本 文件 中 某 一 行文 字 的 String (字符 串 ) 对 象 。 


2. Spark 操 作 


创建 RDD 后 ， 我 们 便 有 了 一 个 可 供 操作 的 分 布 式 记 录 集 。 在 Spark 编 程 模式 下 ， 所 有 的 操作 
被 分 为 转换 ( transformation ) 和 执行 ( action ) 两 种 。 一 般 来 说 ， 转 换 操作 是 对 一 个 数据 集 里 的 
所 有 记录 执行 某 种 函数 ， 从 而 使 记录 发 生 改变 ; 而 执行 通常 是 运行 某 些 计算 或 聚合 操作 ,并 将 结 


果 返 回 运行 SparkCont ext 的 那个 驱动 程序 o 


Spark 的 操作 通常 采用 函数 式 风格 。 对 于 那些 熟悉 用 Scala 或 Python 进行 函数 式 编程 的 程序 员 
来 说 ， 这 不 难 掌握 。 但 Spark API 其 实 容 易 上 手 ， 所 以 那些 没有 函数 式 编程 经 验 的 程序 员 也 不 用 


担心 。 


Spark 程 序 中 最 常用 的 转换 操作 便 是 map 操 作 。 该 操作 对 一 个 RDD 里 的 每 一 条 记录 都 执行 某 个 
函数 ， 从 而 将 输入 映射 成 为 新 的 输出 。 比 如 , 下 面 这 段 代码 便 对 一 个 从 本 地 文本 文件 创建 的 RDD 
进行 操作 。 它 对 该 RDD 中 的 每 一 条 记录 都 执行 size 函 数 。 之 前 我 们 曾 创建 过 一 个 这 样 的 由 若干 
String 构 成 的 RDD 对 象 。 通 过 map 孙 数 ， 我 们 将 每 一 个 字符 串 都 转换 为 一 个 整数 ， 从 而 返回 一 
个 由 若干 Int 构 成 的 RDD 对 象 。 


val intsFromStringsRDD = rddFromTextFile.map (line => line.size) 


其 输出 应 与 如 下 类 似 ， 其 中 也 提示 了 RDD 的 类 型 : 


intsFromStringsRDD: org.apache.spark.rdd.RDD[Int] = MappedRDD[5] at map at 
<console>:14 


示例 代码 中 的 => 是 Scala 下 表示 匿名 函数 的 语法 。 匿 名 函数 指 那些 没有 指定 函数 名 的 函数 ( 比 
如 Scala 或 Python 中 用 aef 关 键 字 定 义 的 函数 )。 


匿名 函数 的 具体 细节 并 不 在 本 书 讨 论 范围 内 ， 但 由 于 它们 在 Scala、Python 
以 及 Java 8 中 大 量 使 用 (示例 或 现实 应 用 中 都 是 )， 列 举 一 些 实例 仍 会 有 帮助 。 

语法 line => line.size 表 示 以 => 操 作 符 左边 的 部 分 作为 输入 ， 对 其 执行 
一 个 函数 ， 并 以 => 操 作 符 右边 代码 的 执行 结果 为 输出 。 在 这 个 例子 中 ， 输 入 为 
line, 输 出 则 是 1ine.size 函 数 的 执行 结果 .在 Scala 语 言 中 ,这 种 将 一 个 String 
对 象 映 射 为 一 个 Int 的 函数 被 表示 为 String => Int。 

该 语法 使 得 每 次 使 用 如 map 这 种 方法 时 ， 都 不 需要 另外 单独 定义 一 个 函数 。 
当 浮 数 简单 且 只 需 使 用 一 次 时 ( 像 本 例 一 样 时 )， 这 种 方式 很 有 用 。 
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现在 我 们 可 以 调用 一 个 常见 的 执行 操作 count ， 来 返回 RDD 中 的 记录 数目 。 


intsFromStringsRDD.count 
执行 的 结果 应 该 类 似 如 下 输出 : 


14/01/29 23:28:28 INFO SparkContext: Starting job: count at <console>:17 ... 
14/01/29 23:28:28 INFO SparkContext: Job finished: count at <console>:17, took 
0.019227 s res4: Long = 398 


如 果 要 计算 这 个 文本 文件 里 每 行 字符 串 的 平均 长 度 ， 可 以 先 使 用 sum 函 数 来 对 所 有 记录 的 长 
度 求 和 ， 然 后 再 除 以 总 的 记录 数目 : 


val sumOfRecords = intsFromStringsRDD.sum 


val numRecords = intsFromStringsRDD.count 
val aveLengthOfRecord = sumOfRecords / numRecords 
结果 应 该 如 下 : 


aveLengthOfRecord: Double = 52.06030150753769 


Spark 的 大 多 数 操作 都 会 返回 一 个 新 RDD, 但 多 数 的 执行 操作 则 是 返回 计算 的 结果 ( 比如 上 
面 例子 中 ，count 返 回 一 个 Long，sum 返 回 一 个 Double )。 这 就 意味 着 多 个 操作 可 以 很 自然 地 
前 后 连接 ， 从 而 让 代码 更 为 简洁 明了 。 举 例 来 说 ， 用 下 面 的 一 行 代 码 可 以 得 到 和 上 面 例子 相同 
的 结果 : 


val aveLengthOfRecordChained = rddFromTextFile.map(line => line.size).sum / 
rddFromTextFile.count 


值得 注意 的 一 点 是 ，Spark 中 的 转换 操作 是 延 后 的 。 也 就 是 说 ， 在 RDD 上 调用 一 个 转换 操作 
并 不 会 立即 触发 相应 的 计算 。 相 反 ,， 这些 转 换 操作 会 链接 起 来 ,并 只 在 有 执行 操作 被 调用 时 才 被 
高 效 地 计算 。 这 样 , 大 部 分 操作 可 以 在 集群 上 并 行 执行 ， 只 有 必要 时 才 计 算 结 果 并 将 其 返回 给 驱 
动 程 序 ， 从 而 提高 了 Spark 的 效率 。 


这 就 意味 着 ， 如 果 我 们 的 Spark 程 序 从 未 调用 一 个 执行 操作 ， 就 不 会 触发 实际 的 计算 ， 也 不 
会 得 到 任何 结果 。 比 如 下 面 的 代码 就 只 是 返回 一 个 表示 一 系列 转换 操作 的 新 RDD: 


val transformedRDD = rddFromTextFile.map(line => line.size). 
filter(size => size > 10) .map (size => size * 2) 


相应 的 终端 输出 如 下 : 


transformedRDD: org.apache.spark.rdd.RDD[Int] = MappedRDD[8] at map at <console>:14 


注意 , 这 里 实际 上 没有 触发 任何 计算 , 也 没有 结果 被 返回 。 如果 我 们 现在 在 新 的 RDD 上 调用 
一 个 执行 操作 ， 比 如 sum， 该 计算 将 会 被 触发 : 


val computation = transformedqRDD .sum 
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现在 你 可 以 看 到 一 个 Spark 任 务 被 启动 ， 并 返回 如 下 终端 输出 : 


14/11/27 21:48:21 INFO SparkContext: Job finished: sum at <console>:16, 
took 0.193513 s 
computation: Double = 60468.0 


RDD 支 持 的 转换 和 执行 操作 的 完整 列表 以 及 更 为 详细 的 例子 ， 参见 《 Spark 
> 编程 指南 》( http://spark.apache.org/docs/latest/programming-guide.html#rdd operations ) 
Q 以 及 Spark API ( Scala ) 文档 ( http://spark.apache.org/docs/latest/api/scala/index. 
html#org.apache.spark.rdd.RDD )。 


3. RDD 缓 存 策略 


Spark 最 为 强大 的 功能 之 一 便 是 能 够 把 数据 缓存 在 集群 的 内 存 里 。 这 通过 调用 RDD 的 cache 
函数 来 实现 : 
rddFromTextFile.cache 


调用 一 个 RDD 的 cache 函 数 将 会 告诉 Spark 将 这 个 RDD 绥 存在 内 存 中 。 在 RDD 首 次 调用 一 个 
执行 操作 时 ,这 个 操作 对 应 的 计算 会 立即 执行 ,数据 会 从 数据 源 里 读 出 并 保存 到 内 存 。 因 此 , 首 
次 调用 cache 函 数 所 需要 的 时 间 会 部 分 取决 于 Spark 从 输入 源 读 取 数 据 所 需要 的 时 间 。 但 是 ， 当 
下 一 次 访问 该 数据 集 的 时 候 ， 数 据 可 以 直接 从 内 存 中 读 出 从 而 减少 低 效 的 IO 操作 ， 加 快 计算 。 
多 数 情况 下 ， 这 会 取得 数 倍 的 速度 提升 。 

如 果 现 在 在 已 缓存 了 的 RDD 上 调用 count 或 sum 函 数 , 应 该 可 以 感觉 到 RDD 的 确 已 经 载 人 到 
了 内 存 中 ， 


val aveLengthOfRecordChained = rddFromTextFile.map(line => line.size). 
sum / rddFromTextFile.count 


实际 上 ， 从 下 方 的 输出 我 们 可 以 看 到 ， 数 据 在 第 一 次 调用 cache 时 便 已 缓存 到 内 存 ， 并 占用 
了 大 约 62 KB 的 空间 ， 余 下 270 MB 可 用 : 


14/01/30 06:59:27 INFO MemoryStore: ensureFreeSpace(63454) called with curMem=32960, 
maxMem=311387750 

14/01/30 06:59:27 INFO MemoryStore: Block rdd 2 0 stored as values to memory (estimated 
size 62.0 KB, free 296.9 MB) 

14/01/30 06:59:27 INFO BlockManagerMasterActor$BlockManagerInfo: Added rdqd 2 0 in 
memory on 10.0.0.3:55089 (size: 62.0 KB, free: 296.9 MB) 


现在 ,我 们 再 次 求 平均 长 度 : 


val aveLengthOfRecordChainedFromCached = rddFromTextFile.map (line => line.size) .Sum 
/ rddFromTextFile.count 
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从 如 下 的 输出 中 应 该 可 以 看 出 缓存 的 数据 是 从 内 存 直 接 读 出 的 : 


14/01/30 06:59:34 INFO BlockManager: Found block rdd 2 0 locally 


NI Spark 支 持 更 为 细 化 的 缓存 策略 。 通 过 persist 函 数 可 以 指定 Spark 的 数据 缓 
存 策略 。 关 于 RDD 缓 存 的 更 多 信息 可 参见 : http://spark.apache.org/docs/latest/ 
programming-guide.html#rdd-persistence。 


1.3.4 广播 变量 和 累加 器 
Spark 的 另 一 个 核心 功能 是 能 创建 两 种 特殊 类 型 的 变量 : 广播 变量 和 累加 器 。 


广播 变量 ( broadcast variable ) 为 只 读 变 量 ， 它 由 运行 Sparkcontext 的 驱动 程序 创建 后 发 送 
给 会 参与 计算 的 节点 。 对 那些 需要 让 各 工作 节点 高 效 地 访问 相同 数据 的 应 用 场景 , 比如 机 器 学 习 ， 
这 非常 有 用 。Spark 下 创建 广播 变量 只 需 在 sparkcontext 上 调用 一 个 方法 即 可 : 


Val broadcastAList = sc.broadcast (List("a", "b", "c", "d", "e")) 


终端 的 输出 表明 , 广播 变量 存储 在 内 存 中 ， 占 用 的 空间 大 概 是 488 字 节 ， 仍 余下 270 MB 可 用 
et 
空间 : 
14/01/30 07:13:32 INFO MemoryStore: ensureFreeSpace(488) called with curMem=96414, 
maxMem=311387750 
14/01/30 07:13:32 INFO MemoryStore: Block broadcast 1 stored as values to memory 


(estimated size 488.0 B, free 296.9 MB) 
broadCastAList: org.apache.spark.broadcast.Broadcast [List[String]] = Broadcast (1) 


广播 变量 也 可 以 被 非 驱 动 程序 所 在 的 节点 ( 即 工作 节点 ) 访问 , 访问 的 方法 是 调用 该 变量 的 
value 方 法 : 


sc.parallelize(List("1", "2", "3")) .map(x => broadcastAList.value ++ X) .collect 


这 段 代码 会 从 {"1"，"2"， "3"} 这 个 集合 (一 个 Scala List ) 里 ， 新 建 一 个 带 有 三 条 记录 
的 RDD。map 函 数 里 的 代码 会 返回 一 个 新 的 List 对 象 。 这 个 对 象 里 的 记录 由 之 前 创建 的 那个 
broadcastAList 里 的 记录 与 新 建 的 RDD 里 的 三 条 记录 分 别 拼接 而 成 。 


和 主意, 上 述 代码 使 用 了 collect 函 数 。 这 个 函数 是 一 个 Spark 执 行 函数 , 它 将 整个 IDD 以 Scala 
( 是 ) 集合 的 形式 返回 驱动 程序 。 


通常 只 在 需 将 结果 返回 到 驱动 程序 所 在 节点 以 供 本 地 处 理 时 ， 才 调用 col lect 郴 数 。 
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注意 ,collect 函 数 一 般 仅 在 的 确 需要 将 整个 结果 集 返 回 驱动 程序 并 进行 后 
续 处 理 时 才 有 必要 调用 。 如 果 在 一 个 非常 大 的 数据 集 上 调用 该 函数 ,可 能 耗 尽 驱 
动 程序 的 可 用 内 存 ， 进 而 导致 程序 前 溃 。 
~ 高 负荷 的 处 理应 尽 可 能 地 在 整个 集群 上 进行 ,从 而 避免 驱动 程序 成 为 系统 瓶 
颈 。 然而 在 不 少 情况 下 , 将 结果 收集 到 驱动 程序 的 确 是 有 必要 的 。 很 多 机 器 学 习 
算法 的 迭代 过 程 便 属 于 这 类 情况 。 


从 如 下 结果 可 以 看 出 ， 新 生成 的 RDD 里 包含 3 条 记录 ， 其 每 一 条 记录 包含 一 个 由 原来 被 广播 
的 ist 变量 附加 一 个 新 的 元 素 所 构成 的 新 记录 (也 就 是 说 ， 新 记录 分 别 以 1、2、3 结 尾 )。 


14/01/31 10:15:39 INFO SparkContext: Job finished: collect at <console>:15, took 
0.025806 s res6: Array[List[Any]] = Array(List(a, b, c, d, e, 1), Listl(a, b, c, d, e, 
2), List(a, b, c, d, e, 3)) 


累加 器 (accumulator ) 也 是 一 种 被 广播 到 工作 节点 的 变量 。 累 加 需 与 广播 变量 的 关键 不 同 ， 
是 后 者 只 能 读 取 而 前 者 却 可 累加 。 但 支持 的 累加 操作 有 一 定 的 限制 。 具体 来 说 , 这 种 累加 必须 是 
一 种 有 关联 的 操作 , 即 它 得 能 保证 在 全 局 范围 内 累加 起 来 的 值 能 被 正确 地 并 行 计算 以 及 返回 驱动 
程序 ,每 一 个 工作 节点 只 能 访问 和 操作 其 自己 本 地 的 累加 器 ,全 局 累加 器 则 只 允许 驱动 程序 访问 。 
累加 器 同样 可 以 在 Spark 代 码 中 通过 value 访 问 。 


org/docs/latest/programming-guide.html#shared-variables。 


| a 关于 累加 器 的 更 多 信息 ， 可 参见 《Spatk 编 程 指 南 》: http://spark.apache. 
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下 面 我 们 用 上 一 节 所 提 到 的 内 容 来 编写 一 个 简单 的 Spark 数 据 处 理 程序 。 该 程序 将 依次 用 
Scala 、Java 和 Python 三 种 语言 来 编写 。 所 用 数据 是 客户 在 我 们 在 线 商店 的 商品 购买 记录 。 该 数据 
存在 一 个 CSV 文 件 中 ， 名 为 UserPurchaseHistory.csv， 内 容 如 下 所 示 。 文件 的 每 一 行 对 应 一 条 购买 
记录 ， 从 左 到 右 的 各 列 值 依次 为 客户 名 称 、 商 品名 以 及 商品 价格 。 

John,iPhone Cover,9.99 

John,Headphones,5.49 

Jack,iPhone Cover,9.99 


Jill,Samsung Galaxy Cover,8.95 
Bob,iPad Cover,5.49 


对 于 Scala 程 序 而 言 ， 需 要 创建 两 个 文件 ，Scala 代 码 文件 以 及 项 目的 构建 配置 文件 。 项目 将 
使 用 SBT ( Scala Build Tool，Scala 构 建 工 具 ) 来 构建 。 为 便于 理解 ， 建 议 读 者 下 载 示例 代码 
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scala-spark-app。 该 资源 里 的 data 目 录 下 包含 了 上 述 CSV 文 件 。 运行 这 个 示例 项 目 需 要 系统 中 已 经 
安装 好 SBT ( 编写 本 书 时 所 使 用 的 版 本 为 0.13.1 )。 


By 


配置 SBT 并 不 在 本 书 讨论 范围 内 ， 但 读者 可 以 从 http:/www.scala-sbt.org/ 
release/docs/Getting-Started/Setup.html 找 到 更 多 信息 。 


我 们 的 SBT 配 置 文件 是 build.sbt, 其 内 容 如 下 面 所 示 ( 注意 , 各 行 代 码 之 间 的 空 行 是 必需 的 ): 


name := "scala-spark-app" 
version := "1.0" 
scalaVersion := "2.10.4" 


libraryDependencies += "org.apache.spark" %% "spark-core" %$ "1.2.0 " 


最 后 一 行 代码 是 添加 Spark 到 本 项 目的 依赖 库 。 


相应 的 Scala 程 序 在 ScalaApp.scala 这 个 文件 里 。 接 下 来 我 们 会 逐一 讲解 代码 的 各 个 部 分 。 首 
导入 所 需要 的 Spark 类 ; 


import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext._ 


/大 类 


* 用 Scala 编 写 的 一 个 简单 的 Spark 应 用 
wy 
object ScalaApp { 


在 主 函 数 里 ,我 们 要 初始 化 所 需 的 SparkContext 对 象 ， 并且 用 它 通过 textFile 清 数 来 访 


问 CSV 数 据 文件 。 之 后 对 每 一 行 原始 字符 串 以 逗号 为 分 隔 符 进行 分 割 ， 提取 出 相应 的 用 户 名 、 产 
品 和 价格 信息 ， 从 而 完成 对 原始 文本 的 映射 : 


def main(args: Array[String]) { 
val sc = new SparkContext ("local[2]", "First Spark App") 
// 将 CSV 格 式 的 原始 数据 转化 为 (user,product,price) 格 式 的 记录 集 
val data = sc.textFile("data/UserPurchaseHistory.csv") 
.map (line => line.split(",")) 
.map (purchaseRecord => (purchaseRecord(0), purchaseRecord(1), 
purchaseRecord (2))) 


现在 ,我 们 有 了 一 个 RDD， 其 每 条 记录 都 由 (user，product，price) 三 个 字段 构成 。 我 


们 可 以 对 商店 计算 如 下 指标 : 


口 购买 总 次 数 
口 客户 总 个 数 
口 总 收入 
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口 最 畅销 的 产品 
计算 方法 如 下 : 
// 求购 买 次 数 


val numPurchases = data.count() 


// 求 有 多 少 个 不 同 客户 购买 过 商品 


val uniqueUsers = data.map{ case (user, product, price) => user }.dqistinct().count () 


// 求 和 得 出 总 收入 
val totalRevenue = data.map{ case (user, product, price) => price.toDouble }.sum() 


// 求 最 畅销 的 产品 是 什么 
val productsByPopularity = data 
.map{ case (user, product, price) => (product, 1) } 
.reduceByKey(_ + _) 
.Collect () 
SOrtBYy (= ,2.) 
val mostPopular = productsByPopularity(0) 


后 那 段 计 算 最 畅销 产品 的 代码 演示 了 如 何 进行 Map/Reduce 模 式 的 计算 ， 该 模式 随 Hadoop 
i 第 一 步 ， 我 们 将 (user，product，price) 格 式 的 记录 映射 为 (broduct，1) 格 式 。 
然后 ， 我 们 执行 一 个 reduceByKey 操 作 ， 它 会 对 各 个 产品 的 1 值 进行 求 和 。 


转换 后 的 RDD 包 含 各 个 商品 的 购买 次 数 。 有 了 这 个 RDD 后 ， 我 们 可 以 调用 collect 捕 数 ， 
会 将 其 计算 结果 以 Scala 集 合 的 形式 返回 驱动 程序 。 之 后 在 和 的 本 地 这 此 记 好 
灭 次 数 进行 排序 。( 注意 , 在 实际 处 理 大 量 数据 时 , 我 们 通常 通过 sortByKey 这 类 操作 来 对 其 
F 行 排序 。 ) 


最 后 ， 可 在 终端 上 打印 出 计算 结 


光 


| 


N 
| 


println("Total purchases: " + numPurchases ) 
println("Unique users: " + UniqueUsers) 
println("Total revenue: " + totalRevenue) 


println("Most popular product: %s with %d Purchases'" . 
format (mostPopular._1, mostPopular._2)) 
} 
} 
可 以 在 项 目的 主 目录 下 执行 sbt run 命 令 来 运行 这 个 程序 。 如 果 你 使 用 了 IDE 的 话 ， 也 可 以 


从 Scala IDE 直 接 运 行 。 最 终 的 输出 应 该 与 下 面 的 内 容 相似 : 


[info] Compiling 1 Scala source to ... 
[info] Running ScalaApp 


14/01/30 10:54:40 INFO spark.SparkContext: Job finished: collect at 
ScalaApp.scala:25, took 0.045181 s 

Total purchases: 5 

Unique users: 4 

Total revenue: 39.91 

Most popular product: iPhone Cover with 2 purchases 
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可 以 看 到 ， 商 店 总 共有 4 个 客户 的 5 次 交易 ， 总 收入 为 39.91。 最 畅销 的 商品 是 iPhone Cover， 
共 购 买 2 次 。 


1.5 ”Spark Java 编程 入 门 


Java API 与 Scala API 本 质 上 很 相似 。Scala 代 码 可 以 很 方便 地 调用 Java 人 代码， 但 某 些 Scala 代 码 
却 无 法 在 Java 里 调用 , 特别 是 那些 使 用 了 隐 式 类 型 转换 、 默 认 参 数 和 采用 了 某 些 Scala 反 射 机 制 的 
代码 。 
一 般 来 说 , 这 些 特 性 在 Scala 程 序 中 会 被 广泛 使 用 。 这 就 有 必要 另外 为 那些 常见 的 类 编写 相应 
的 Java 版 本 。 由 此 ，sparkcontext 有 了 对 应 的 Java 版 本 JavaSsparkCcontext ， 而 RDD 则 对 应 
JavaRDDo 


1.8 及 之 前 版 本 的 Java 并 不 支持 匿名 号 数 , 在 函数 式 编程 上 也 没有 严格 的 语法 规范 。 于 是 , 套 
用 到 Spaxk 的 Java API 上 的 函数 必须 要 实现 一 个 带 有 call 孙 数 的 WrappedFunction 接 口 。 这 会 使 
得 代码 元 长 ， 所 以 我 们 经 常会 创建 临时 类 来 传递 给 Spark 操 作 。 这 些 类 会 实现 操作 所 需 的 接口 以 
及 call 子 数 ， 以 取得 和 用 Scala 编 写 时 相同 的 效果 。 

Spaik 提 供 对 Java 8 匿名 函数 (lambda ) 语法 的 支持 。 使 用 该 语法 能 让 Java 8 书写 的 代码 看 上 
去 很 像 等 效 的 Scala 版 。 

用 Scala 编 写 时 ， 键 / 值 对 记录 的 RDD 能 支持 一 些 特别 的 操作 ( 比如 reduceByKey 和 
saveAsSequenceFile )。 这 些 操作 可 以 通过 隐 式 类 型 转换 而 自动 被 调用 。 用 Java 编 号 时 ， 则 需 
要 特别 类 型 的 JavaRDD 来 支持 这 些 操作 。 它 们 包括 用 于 键 / 值 对 的 JavaPairRDD， 以 及 用 于 数值 
记录 的 JavaDoubleRDD。 


RR 我 们 在 这 里 只 涉及 标准 的 Java API 语 法 。 关 于 Java 下 支持 的 RDD 以 及 Java 8 
lambda 表 达 式 支持 的 更 多 信息 可 参见 《Spark 编 程 指南 》 http://spark.apache.org/ 
docs/latest/programming-guide.html#rdd-operations。 


在 后 面 的 Java 程 序 中 ， 我们 可 以 看 到 大 部 分 差异 。 这 些 示 例 代 码 包含 在 本 章 示 例 代码 的 
java-spark-app 目 录 下 。 该 目录 的 data 子 目录 下 也 包含 上 述 CSV 数 据 。 


这 里 会 使 用 Maven 构 建 工具 来 编译 和 运行 这 个 项 目 。 我 们 假设 读者 已 经 在 其 系统 上 安装 好 了 
该 工具 。 


yy Maven 的 安装 和 配置 并 不 在 本 书 讨论 范围 内 。 通 常 它 可 通过 Linux 系 统 中 的 
ea 软件 管理 器 或 Mac OS X 中 的 HomeBrew 或 MacPorts 方 便 地 安装 。 
详细 的 安装 指南 参见 : http://maven.apache.org/download.cgi。 
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项 目 中 包含 一 个 名 为 JavaApp.java 的 Java 源 文件 : 


import org.apache.spark.api.java.JavaRDD; 

import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java.function.DoubleFunction; 
import org.apache.spark.api.java.function.Function; 
import org.apache.spark.api.java.function.Function2; 
import org.apache.spark.api.java.function.PairFunction; 
import scala.Tuple2; 
import java.util.Collections; 
import java.util.Comparator; 
import java.util.List; 

/大 大 

* 用 Java 编 写 的 一 个 简单 的 Spark 应 用 

Hf 


public class JavaApp { 


public static void main(String[] args) { 


正如 在 Scala 项 目 中 一 样 , 我 们 首先 需要 初始 化 一 个 上 下 文 对 象 。 值得 注意 的 是 , 这 里 所 使 用 
的 是 JavaSparkContext 类 而 不 是 之 前 的 Sparkcontext。 类 似 地 ， 调 用 JavasparkContext 
对 象 ， 利 用 FextFile 函 数 来 访问 数据 ， 然 后 将 各 行 输入 分 割 成 多 个 字段 。 请 注意 下 面 代码 的 高 
亮 部 分 是 如 何 使 用 匿名 类 来 定义 一 个 分 割 函数 的 。 该 函数 确定 了 如 何 对 各 行 字符 串 进 行 分 割 。 


JavaSparkContext sc = new JavaSparkContext ("local{[2]", "First Spark App"); 
// 将 CSV 格 式 的 原始 数据 转化 为 (user,product,price) 格 式 的 记录 集 
JavaRDD<string[]> data = 
sc.textFile("data/UserPurchaseHistory.csv") 
.map (new Function<String, String[]>() { 

@Override 

public String[] call(String s) throws Exception { 

return s.split(","); 

} 

过 


现在 可 以 算 一 下 用 Scala 时 计算 过 的 指标 。 这 里 有 两 点 值得 注意 的 地 方 ， 一 是 下 面 Java API 中 
有 些 函 数 ( 比如 aistinct 和 count ) 实际 上 和 在 Scala API 中 一 样 ， 二 是 我 们 定义 了 一 个 匿名 类 
并 将 其 传 给 map 函 数 。 匿 名 类 的 定义 方式 可 参见 代码 的 高 亮 部 分 。 


// 求 总 购买 次 数 

long numPurchases = qata.count () ; 

// 求 有 多 少 个 不 同 客 户 购买 过 商品 

long uniqueUsers = data.map (new Function<String[], String>() { 
@Override 
public String call(String[] strings) throws Exception { 

return strings[0]; 

} 

}) .distinct () .count (); 

// 求 和 得 出 总 收入 
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double totalRevenue = data.map (new DoubleFunction<String[]>() { 
@Override 
public Double cal1(String[] strings) throws Exception { 
return Double.parseDouble(strings[2]); 
} 


}) .sum(); 


下 面 的 代码 展现 了 如 何 求 出 最 畅销 的 产品 , 其 步骤 与 Scala 示 例 的 相同 。 多 出 的 那些 代码 看 似 
复杂 ， 但 它们 大 多 与 Java 中 创建 匿名 函数 有 关 ， 实 际 功 能 与 用 Scala 时 一 样 : 


// 求 最 畅销 的 产品 是 哪个 
// 首先 用 一 个 PairFunction 和 Tuple2 类 将 数据 映射 成 为 (product,1) 格 式 的 记录 
// 然后 ， 用 一 个 Function2 类 来 调用 reduceByKevy 操 作 ， 该 操作 实际 上 是 一 个 求 和 函数 
List<Tuple2<String, Integer>> pairs = data.map (new 
PairFunction<String[], String, Integer>() { 
@Override 
public Tuple2<String, Integer> calll(String[] strings) 
throws Exception { 
return new Tuple2(strings[1], 1); 
} 
}) .reduceByKey (new Function2<Integer, Integer, Integer>() { 
@Override 
public Integer calll(Integer integer, Integer integer2) 
throws Exception { 
return integer + integer2; 
} 
}) .collect (); 
// 最 后 对 结果 进行 排序 。 注 意 ， 这 里 会 需要 创建 一 个 Comparator 函 数 来 进行 降序 排列 
Collections.sort (pairs, new Comparator<Tuple2<String, Integer>>() { 
@Override 
public int compare (Tuple2<String, Integer> ol1, 
Tuple2<String, Integer> o2) { 
return (OL 2 () O22 
} 
于 学 
String mostPopular = pairs.get (0)._1(); 
int purchases = pairs.get (0)._2(); 


System.out .println("Total purchases: " + numPpurchases); 
System.out .println("Unique users: " + uniqueUsers); 
System.out .println("Total revenue: " + totalRevenue); 


System.out.println(String.format ("Most popular product: 
ss with %d purchases", mostPopular, purchases)); 


} 

从 前 面 代码 可 以 看 出 , Java 代 码 和 Scala 代 码 相 比 虽 然 多 了 通过 内 部 类 来 声明 变量 和 函数 的 引 
用 代码 , 但 两 者 的 基本 结构 类 似 。 读 者 不 妨 分 别 练习 这 两 种 版 本 的 代码 ,并 比较 一 下 计算 同一 个 
指标 时 两 种 语言 在 表达 上 的 异同 。 


该 程序 可 以 通过 在 项 目 主 目录 下 执行 如 下 命令 运行 : 


>mvn exec:java -Dexec.mainClass="JavaApp" 
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可 以 看 到 其 输出 和 Scala 版 的 很 类 似 ， 而 且 计算 结果 完全 一 样 : 


14/01/30 17:02:43 INFO spark.SparkContext: Job finished: collect at 
JavaApp.java:46, took 0.039167 s 

Total purchases: 5 

Unique users: 4 

Total revenue: 39.91 

Most popular product: iPhone Cover with 2 purchases 


1.6 ”Spark Python 编程 入 门 


Spark 的 Python API 几 乎 覆盖 了 所 有 Scala API 所 能 提供 的 功能 ， 但 的 确 有 些 特性 ， 比 如 Spark 
Streaming 和 个 别 的 API 方 法 ， 暂 不 支持 。 具 体 可 参见 《 Spark 编程 指南 》 的 Python 部 分 : 
http://spark.apache.org/docs/latest/programming-guide.html。 


与 上 两 节 类 似 ， 这 里 将 编写 一 个 相同 功能 的 Python 版 程序 。 我 们 假设 读者 系统 中 已 安装 
或 更 高 版 本 的 Python ( 多 数 Linux 系 统 和 Mac OS X 已 预 装 Python )。 


如 下 示例 代码 可 以 在 本 章 的 python-spark-app 目 录 下 找到 。 相应 的 CSV 数 据 文件 也 在 该 目录 的 
data 子 目录 中 。 项目 代码 在 一 个 名 为 pythonapp.py 的 脚本 里 ， 其 内 容 如 下 : 


'" 用 Python 编 写 的 一 个 简单 Spark 应 用 """ 
from pyspark import SparkContext 


sc = SparkContext ("local[2]", "First Spark App") 

将 CSV 格 式 的 原始 数据 转化 为 (User,product,price) 格 式 的 记录 集 

data = sc.textFile("data/UserPurchaseHistory.csv") .map(lambda line: 
line.split(",")) .map(lambda record: (record[0], record[1], record[2])) 
求 总 购买 次 数 

numPurchases = data.count() 

求 有 多 少 不 同 客户 购买 过 商品 

unigqueUsers = data.map (lambda record: record[0]) .distinct().count() 
求 和 得 出 总 收入 

totalRevenue = data.map (lambda record: float (record{[2])).sum() 

求 最 畅销 的 产品 是 什么 

products = data.map(lambda record: (record[1], 1.0)). 
reduceByKey(lambda a, b: a + b) .collect() 

mostPopular = sorted(products, key=lambda x: x[1], reverse=True){[0] 


9 


print "Total purchases: %d" % numPurchases 


9 


print "Unique users: %d" g% uniqueUsers 


[es) 


print "Total revenue: $2.2f" 多 totalRevenue 
print "Most popular product: %s with %d purchases" % (mostPopular[0], mostPopular[1]) 


对 比 Scala 版 和 Python 版 代码 , 不 难 发 现 语法 大 致 相同 。 主 要 不 同 在 于 匿名 函数 的 表达 方式 上 ， 
匿名 函数 在 Python 语言 中 亦 称 lambda 函 数 ，lambda 也 是 语法 表达 上 的 关键 字 。 用 Scala 编 写 时 ， 
个 将 输入 x 映射 为 输出 y 的 匿名 函数 表示 为 x => y， 而 在 Python 中 则 是 lambda x : y。 在 上 面 
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代码 的 高 亮 部 分 ,我们 定义 了 一 个 将 两 个 输入 映射 为 一 个 输出 的 匿名 函数 。 这 两 个 输入 的 类 型 一 
般 相 同 ， 这 里 调用 的 是 相 加 函 数 ， 故 写成 lambda a, b : a + bo 

运行 该 脚本 的 最 好 方法 是 在 脚本 目录 下 运行 如 下 命令 

>$SPARK HOME/bin/spark-submit pythonapp.py 


上 述 代码 中 的 $SsSPARK_HOME 变 量 应 该 被 蔡 换 为 Spark 的 主 目录 , 也 就 是 在 本 章 开 始 Spark 预 编 
译 包 解压 生成 的 那个 目录 。 


脚本 运行 完 的 输出 应 该 和 运行 Scala 和 Java 版 时 的 类 似 ， 其 结果 同样 也 是 : 


14/01/30 11:43:47 INFO SparkContext : Job finished: collect at Pythonapp . 
py:14, took 0.050251 s 

Total purchases: 5 

Unique users: 4 

Total revenue: 39.91 

Most popular product: iPhone Cover with 2 purchases 


1.7 在 Amazon EC2 上 运行 Spark 


Spark 项 目 提供 了 在 Amazon EC2 上 构建 一 个 Spark 集 群 所 需 的 脚本 ， 位 于 ec2 文 件 夹 下 。 输 入 
如 下 命令 便 可 调用 该 文件 夹 下 的 spark-ec2 脚 本 : 


>./ec2/spark-ec2 


当 不 带 参数 直接 运行 上 述 代码 时 ， 终 端 会 显示 该 命令 的 用 法 信息 : 


条 


Usage: spark-ec2 [options] <actiom> <clusber name> 
<action> can be: launch, destroy, login, stop, start, get-master 


Options: 


在 创建 一 个 Spark EC2 集 群 前 ， 我 们 需要 一 个 Amazon 账 号 。 


» 如 果 没 有 Amazon Web Service 账 号 ， 可 以 在 http:/ /aWs.amazon.com/ 注 册 。 
Q AWS 的 管理 控制 台地 址 是 : http://aws.amazon.com/console/。 


另外 ， 我 们 还 需要 创建 一 个 Amazon EC2 密 钥 对 和 相关 的 安全 凭证 。Spark 文 档 提 到 了 在 EC2 
上 部 署 时 的 需求 。 


口 你 要 先 自己 创建 一 个 Amazon EC2 密 钥 对 。 通 过 管理 控制 台 登 人 你 的 Amazon Web Services 
账号 后 ， 单 击 左边 导航 栏 中 的 “Key Pairs”， 然 后 创建 并 下 载 相应 的 私 钥 文件 。 通 过 ssh 
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远程 访问 EC2 时 ， 会 需要 提交 该 密 钥 。 该 密 钥 的 系统 访问 权限 必须 设 定 为 600 ( 即 只 有 你 
可 以 读 写 该 文件 )， 否 则 会 访问 失败 。 
口 当 需 要 使 用 spark-ec2 肢 本 时 ， 需 要 设置 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_ 
KEY 两 个 环境 变量 。 它 们 分 别 为 你 的 Amazon EC2 访 问 密 钥 标识 ( key ID ) 和 对 应 的 密 铀 密 
码 (secret access key )。 这 些 信息 可 以 从 AWS 主 页 上 依次 点 击 “Account | Security 
Credentials | Access Credentials” 获 得 。 


创建 一 个 密 钥 时 ， 最 好 选取 一 个 好 记 的 名 字 来 命名 。 这 里 假设 密 钥 名 为 spark， 对 应 的 密 钥 
文件 的 名 称 为 spark.pem。 如 上 面 提 到 的 ,我 们 需要 确认 密 钥 的 访问 权限 并 设 定好 所 需 的 环境 


吧 二 区 
变量 : 


>chmod 600 spark.pem 
>export AWS_ACCESS_ KEY_ID="..." 
>export AWS_SECRET ACCESS_ KEY="..." 


上 述 下 载 所 得 的 密 钥 文件 只 能 下 载 一 次 ( 即 在 刚 创建 后 ), 故 对 其 既 要 安全 保存 又 要 避免 丢失 。 
， 下 一 节 中 会 启用 一 个 Amazon EC2 集 群 ， 这 会 在 你 的 AWS 账 号 下 产生 相应 的 费用 。 


启动 一 个 EC2 Spark 集 群 
现在 我 们 可 以 启动 一 个 小 型 Spatk 和 集群 了 。 启 动 它 只 需 进 入 到 ec2 目 录 ， 然 后 输入 : 


>cd ec2 

>./spark-ec2 -k spark -i spark.pem -s 1 --instance-type m3.medium 

--hadoop-major-version 2 launch test-cluster 

这 将 启动 一 个 名 为 “test-cluster” 的 新 集群 ， 其 包含 “m3.medium” 级 别 的 主 节 点 和 从 节点 
各 一 个 。 该 集群 所 用 的 Spark 版 本 适 配 于 Hadoop 2。 我 们 使 用 的 密 钥 名 和 密 钥 文 件 分别 是 spark 和 


Spark.pem。 


集群 的 完全 启动 和 初始 化 会 需要 一 些 时 间 。 在 运行 启动 代码 后 , 应 该 会 立即 看 到 如 下 图 所 示 
的 内 容 : 


Setting up security groups... 

Creating security group test-cluster-master 
Creating security group test-cluster-slaves 
Searching for existing cluster test-cluster,.. 
Spark AMI: ami-35b1885c 

Launching instances... 

Launched 1 slaves in Us-east-1lc，regid = r-5f328e75 
Launched master in US-east-~1lc，regid = r-c9308cea 
Waiting for instances to start Up.,， 

Waiting 120 more Seconds.,。 


如 果 集 群 启动 成 功 ， 最 终 应 可 在 终端 中 看 到 类 似 如 下 的 输出 : 
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ec2-54-91-61-225 .compute-1.amazonaws.Con: Killed @ processes 

Starting master @ ec2-54-227-127-14,compute-1,.amazonawSs. Com 

ec2-54-91-61-225 .compute-1.amazonaws.com: TACHYON_LOGS_DIR: /root/tachyon/\libexec/../\logs 
€c2-54-91-61-225.compute-1.amazonaws. com: Formatting RamFS: /mnt/randisk (2470mb) 
ec2-54-91-61-225.compute-1.amazonaws. com: Starting worker @ ip-10-182-117-29,ec2,internal 
Setting up ganglia 

RSYNC'ing /etc/ganglia to slaves,., 

€c2-54-91-61-225 .compute-1.amazonaws. con 


Shutting down GANGLIA gmond: [FAILED] 
Starting GANGLIA gmond: K 
Shutting down GANGLIA gmond: [FAILED] 


Starting GANGLIA gmond: 
Connection to ec2-54-91-61-225.compute-1.amazonaws.com closed. 


Shutting down GANGLIA gmetad: [FAILED] 
Starting GANGLIA gmetad: 
Stopping httpd: [FAILED] 


Starting httpd: httpd: Syntax error on \line 153 of /etc/httpd/conf/httpd.conf: Cannot load modules/mod_authn_alias,so int 
0 server: /etc/httpd/modules/mod_authn_alias.so: cannot open Shared object file: No such file or directory 
[FAILED] 
Connection to ec2-54-227-127-14.compute-1,amazonaws.com closed, 
Spark standalone cluster started at http://ec2-54-227-127-14,compute-1,.amazonaws.com:8080 
Ganglia started at http://ec2-54-227-127-14.compute-1,amazonNaws .com:5080/ganglia 
Done! 
Nicks-MacBook-Pro:ec2 Nicks 上 


要 测试 是 否 能 连接 到 新 集群 ， 可 以 输入 如 下 命令 


>ssh -i spark.pem root@ec2-54-227-127-14.compute-1.amazonaws .Com 


注意 该 命令 中 roote 后 面 的 卫 地 址 需要 替换 为 你 自己 的 Amazon EC2 的 公开 域名 ,该 域名 可 在 


启动 集群 时 的 输出 中 找到 。 


另外 也 可 以 通过 如 下 命令 得 到 集群 的 公开 域名 : 


>./spark-ec2 -i spark.pem get-master test-cluster 


上 述 ssh 命 令 执行 成 功 后 ， 你 会 连接 到 EC2 上 Spark 集 群 的 主 节 点 ， 同 时 终端 的 输入 应 与 如 下 


Ey / Amazon Linux AMI 
| 人 \- 一 | -一 | 


https://aws,amazon,com/anmazon-Linux-ani/2013,03-reLease-notes/ 

There are 60 security update(s) out of 254 total update(s) available 
Run "sudo yum update" to apply all updates. 

Amazon Linux version 2014,09 is available, 

rooteip-10-150-79-53 ~]$ 中 


如 果 要 测试 集群 是 否 已 正确 配置 Spark 环 境 ， 可 以 切换 到 Spark 目 录 后 运行 一 个 示例 程序 


>cd spark 
>MASTER=local[2] ./bin/run-example SparkPi 


其 输出 应 该 与 在 自己 电脑 上 的 输出 类 似 : 


14/01/30 20:20:21 INFO SparkContext: Job finished: reduce at SparkPi. 
scala:35, took 0.864044012 s 
Pi is roughly 3.14032 
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这 样 就 有 了 包含 多 个 节点 的 真实 集群 ， 可 以 测试 集群 模式 下 的 Spark 了 。 我 们 会 在 一 个 从 节 


点 的 集群 上 运行 相同 的 示例 。 运 行 命令 和 上 面相 同 ， 但 用 主 节 点 的 URL 作 为 MASTER 的 值 : 


序 已 


>MASTER=SpPark://ec2-54-227-127-14.compute-1.amazonaws .com:7077 ./bin/ 
run-example SparkPi 


注意 ， 你 需要 将 上 面 代码 中 的 公开 域名 替换 为 你 自己 的 。 


同样 ， 命 令 的 输出 应 该 和 本 地 运行 时 的 类 似 。 不同 的 是 ,这 里 会 有 日 志 消 息 提 示 你 的 驱动 程 
连接 到 Spark 集 群 的 主 节 点 。 


14/01/30 20:26:17 INFO client.Clients$sClientActor: Connecting to master 
spark://ec2-54-220-189-136.eu-west-1.compute.amazonaws .com:7077 

14/01/30 20:26:17 INFO cluster.SparkDeploySchedulerBackend: Connected to Spark 
cluster with app ID app-20140130202617-0001 

14/01/30 20:26:17 INFO client.Clients$ClientActor: Executor added: app- 
20140130202617-0001/0 on worker-20140130201049-ip-10-34-137-45.eu-west-1.compute. 
internal-57119 (ip-10-34-137-45.eu-west-1.compute.internal:57119) with 1 cores 
14/01/30 20:26:17 INFO cluster.SparkDeploySchedulerBackend: Granted executor ID 
app-20140130202617-0001/0 on hostPort ip-10-34-137-45.eu- 

west-1.compute .internal:57119 with 1 cores, 2.4 GB RAM 

14/01/30 20:26:17 INFO client.Clients$ClientActor: Executor updated: app- 
20140130202617-0001/0 is now RUNNING 

14/01/30 20:26:18 INFO spark.SparkContext: Starting job: reduce at SparkPi.scala:39 


读者 不 芒 在 集群 上 自由 练习 ， 熟 悉 一 下 Scala 的 交互 式 终端 
>./bin/spark-shell --master Spark://ec2-54-227-127-14.compute-1.amazonaws .com:7077 
练习 完 后 ， 输 入 sxit 便 可 退出 终端 。 另 外 也 可 以 通过 如 下 命令 来 体验 PySpark 终 端 


>./bin/pyspark --master Spark://ec2-54-227-127-14.compute-1.amazonaws .com:7077 


通过 Spark 主 节点 网 页 界面 ， 可 以 看 到 主 节 点 下 注册 了 哪些 应 用 。 该 界面 位 于 ec2-3$4-227- 


127-14.compute-1.amazonaws.com:8080 ( 同样 , 需要 将 公开 域名 替换 为 你 自己 的 ), 你 应 该 可 以 看 
到 类 似 下 面 截 图 的 界面 ， 显 示 了 之 前 运行 过 的 一 个 程序 以 及 两 个 已 启动 的 终端 任务 。 
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AA 
Ot Spark Master at spark:/ /ec2-5, 二 


$$ )@ ec2-54-227-127-14.compute-1.amazonaws.com 


站 
和 
办 
川 


Spoik: Spark Master at spark://ec2-54-227-127-14.compute-1.amazonaws.com:7077 


URL: sparkJ/ec2-54-227-127-14.compute-1.amazonaws.com:7077 
Workers: 1 

Cores: 1 Total, 1 Used 

Memory: 2.7 GB Total, 2.4 GB Used 

Applications: 1 Running, 2 Completed 

Drivers: 0 Running, 0 Completed 


Status: ALIVE 
Workers 
ld Address State Cores Memory 
c2.internal-40494 ip-10-182-117-29.ec2.internak.40494 ALVE 1(1Used) 2.7 GB (2.4 GB Used) 
Running Applications 
iD Name Cores Memory per Node Submitted Time User State Duration 
2.4GB 2014/11/29 12:58:18 root RUNNING 8s 
Completed Applications 
ID Name Cores Memory per Node Submitted Time User State Duration 
§ 1 2.4GB 2014/11/29 12:53:13 root FINISHED 4.8 min 
0 24GB 2014/11/29 12:51;14 root FINISHED 11s 


值得 注意 的 是 ，Amazon 会 根据 集群 的 使 用 情况 收取 费用 。 所 以 在 集群 使 用 完毕 后 ， 记 得 停 
止 或 终止 这 个 测试 集群 。 要 终止 该 集群 可 以 先 在 你 本 地 系统 的 ssh 会 话 里 输入 exit, 然后 再 输入 
如 下 命令 : 


>./ec2/spark-ec2 -k Spark -i spark.pem destroy test-cluster 
应 该 可 以 看 到 这 样 的 输出 : 


Are you sure you want to destroy the cluster test-cluster? 
The following instances will be terminated: 

Searching for existing cluster test-cluster... 

Found 1 master(s), 1 slaves 

> ec2-54-227-127-14.compute-1.amazonaws .Com 

> ec2-54-91-61-225.compute-1.amazonaws .Com 

ALL DATA ON ALL NODES WILL BE LOST!! 

Destroy cluster test-cluster (y/N): y 

Terminating master... 

Terminating slaves... 


输入 y， 然 后 回 车 便 可 终止 该 集群 。 


恭喜 ! 现在 你 已 经 做 到 了 在 云端 设置 Spark 集 群 ， 并 在 它 上 面 运行 了 一 个 完全 并 发 的 示例 程 
序 , 最 后 也 终止 了 这 个 集群 。 如 果 在 学 习 后 续 章 节 时 你 想 在 集群 上 运行 示例 或 你 自己 的 程序 , 都 
可 以 再 次 使 用 这 些 脚本 并 指定 想 要 的 集群 规模 和 配置 。( 留意 下 费用 并 记得 使 用 完毕 后 关闭 它们 
就 行 。) 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


1.8 小结 23 


1.8 小结 


本 章 我 们 谈 到 了 如 何在 自己 的 电脑 以 及 Amazon EC2 的 云端 上 配置 Spark 环 境 。 通过 Scala 交 互 
式 终端 ,我 们 学 习 了 Spark 编 程 模 型 的 基础 知识 并 了 解 了 它 的 API。 另 外 我 们 还 分 别 用 Scala 、Java 
和 了 Python 语言 ， 编 写 了 一 个 简单 的 Spark 程 序 。 


下 一 章 ， 我 们 将 考虑 如 何 使 用 Spark 来 创建 一 个 机 器 学 习 系统 。 
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设计 机 器 学 习 系 统 


本 章 ， 我 们 将 为 一 个 智能 分 布 式 机 器 学 习 系 统 设计 高 层 架构 ， 该 系统 以 Spark 作 为 其 核心 计 
算 引 擎 。 这 里 我 们 将 会 关注 如 何 对 现 有 的 基于 网 页 的 业务 进行 重新 设计 , 以 令 其 能 利用 自动 化 机 
器 学 习 系 统 来 增强 业务 中 的 关键 部 分 。 本 章 的 主要 内 容 有 : 


口 介绍 假想 的 业务 场景 

口 概述 现 有 架构 

口 探寻 用 机 器 学 习 系 统 来 增强 或 是 替代 某 些 业务 功能 的 可 能 途径 
口 根据 上 述 内 容 ， 提 出 新 的 架构 


现代 的 大 数据 场景 包含 如 下 需求 。 


口 必须 能 与 系统 的 其 他 组 件 整合 ， 尤 其 是 数据 的 收集 和 存储 系统 、 分 析 和 报告 以 及 前 端 
应 用 。 

口 易于 扩展 且 与 其 他 组 件 相对 独立 。 理 想 情况 下 ， 同 时 具备 良好 的 水 平和 垂直 可 扩展 性 。 
口 支持 高 效 完成 所 需 类 型 的 计算 ， 即 机 器 学 习 和 迭代 式 分 析 应 用 。 

口 最 好 能 同时 文 持 批 处 理 和 实时 处 理 。 


Spark 作 为 一 个 框架 本 身 能 满足 上 述 需求 。 然 而 我 们 还 需 确 保 基 于 它 设 计 的 机 器 学 习 系 统 也 
能 满足 这 些 需求 。 阁 算法 的 实现 存在 能 引发 系统 故障 的 瓶颈 ， 比 如 不 再 能 满足 上 述 某 些 需求 , 那 


De 


该 实现 就 没 多 大 意义 。 


2.1 MovieStream 介绍 


为 便于 说 明 我 们 的 架构 设计 ， 这 里 假设 存在 一 个 贴近 现实 的 情景 。 假 设 我 们 受命 领导 
MovieStream 数 据 科学 团队 。MovieStream 是 一 家 假想 的 互联 网 公司 ,为 用 户 提 供 在 线 电 影 和 电视 
节目 的 内 容 服 务 。 


MovieStream 成 长 迅速 ,其 用 户 量 和 收录 的 电影 都 在 快速 增加 。MovieStream 现 有 系统 可 概括 
为 图 2-1: 
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IE 用 下 时 人 
人 1 
网 
1 
| 用 户 和 电影 数据 
1 
7 
1 ] 一 -一 一 一 - a Be 
， 精 选 电影 推荐 和 
\ i Ri MovieStream 
人 工 选择 内 容 
批量 营销 
图 2-1 MovieStream 现 有 系统 架构 


如 图 所 示 ， 向 用 户 推荐 哪些 电影 和 节目 以 及 在 站 点 的 何 处 显示 ， 都 由 MovieStream 内 容 编 辑 
队 负 责 。 该 团队 还 负责 MovieStream 的 群发 营销 ， 包 括 


电子 邮件 和 其 他 直销 渠道 。 现 阶段 ， 
MovieStream 以 汇总 的 方式 来 收集 用 户 的 电影 浏览 记录 , 并 能 访问 一 些 用 户 注册 时 所 了 
此 外 ， 他 们 还 能 访问 其 所 收录 的 电影 的 一 些 基本 元 数据 。 


( 写 的 资料 。 
随 着 业务 快速 发 展 ， 新 发 布 的 电影 和 用 户 的 活动 不 断 增 加 ，MovieStream 团 队 愈 发 难以 跟 上 
这 样 的 趋势 。MovieStream 的 CEO 之 前 对 大 数据 、 机 咒 学 习 和 人 工 智 能 有 过 较 多 了 解 。 他 和 希望 我 


们 能 为 MovieStream 创 建 一 个 机 器 学 习 系 统 ， 以 处 理 现在 


内 容 团 队 人 工 处 理 的 许多 内 容 。 


2.2 ”机 器 学 习 系统 商业 用 例 


我 们 该 问 的 第 一 个 问题 或 许 是 : 为 什么 要 使 用 机 器 学 习 ? 为 何不 直接 仍 以 人 工 方式 来 支持 
MovieStream? 使 用 机 器 学 习 的 理 


有 很 多 ( 不 使 用 的 理由 同样 也 有 很 多 ), 其 中 最 为 重要 的 几 点 有 : 

口 涉及 的 数据 规模 意味 着 完全 依靠 人 工 处 理会 很 快 跟 不 上 MovieStream 的 发 展 ; 

口 机 器 学 习 和 统计 模型 等 基于 模型 的 方式 能 发 现 人 类 ( 因数 据 集 量 级 和 
发 现 的 模式 ; 


复杂 度 过 高 ) 难以 


口 基于 模型 的 方式 能 避免 个 人 或 是 情感 上 的 偏见 〈 只 要 应 用 时 足够 细心 


目 正 确 )。 
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然而 , 没有 任何 理由 说 基于 模型 和 基于 人 工 的 处 理 和 决策 不 能 并 存 。 比 如 , 许多 机 器 学 习 系 
统 依赖 已 标记 的 数据 来 训练 模型 。 通 常 来 说 ,标记 数据 代价 高 昂 、 耗 时 且 需 人 工 参 与 。 文 本 数据 
分 类 和 文本 的 情感 标识 便 是 很 好 的 例子 。 许 多 现实 中 的 系统 会 采取 某 种 人 力 机 制 来 为 数据 生成 标 
识 ， 并 用 于 训练 模型 。 之 后 ， 这 些 模 型 则 部 署 到 在 线 系统 中 用 于 大 规模 环境 下 的 预测 。 


在 MovieStream 的 案例 中 , 我 们 并 不 需要 担心 机 器 学 习 的 引入 会 使 得 内 容 团 队 多 余 。 事 实 上 ， 
我 们 的 目标 是 让 机 融 学 习 来 负担 那些 耗 时 且 机 器 擅长 的 任务 , 并 向 内 容 团 队 提供 工具 以 帮助 他 们 
更 好 地 理解 用 户 和 内 容 。 比 如 ， 帮 助 他 们 确定 向 电影 库 中 新 增 哪些 电影 〈 新 增 电 影 代 价 高 昂 ， 
而 对 业务 至 关 重 要 )。 


2.2.1 个 性 化 


对 MovieStream 的 业务 来 说 , 个 性 化 或 许 是 机 如 学 习 最 为 重要 的 潜在 应 用 。 一 般 来 说 , 个 性 化 是 
根据 各 种 因素 来 改变 用 户 体验 和 呈现 给 用 户 内 容 。 这 些 因素 可 能 包括 用 户 的 行为 数据 和 外 部 因素 。 


推荐 (recommendation ) 从 根本 上 说 是 个 性 化 的 一 种 ， 常 指向 用 户 呈 现 一 个 他 们 可 能 感 兴趣 
的 物品 列表 。 推 荐 可 用 于 网 页 ( 比如 推荐 相关 产品 )、 电 子 邮 件 、 其 他 直销 渠道 或 移动 应 用 等 。 


个 性 化 和 推荐 十 分 相似 , 但 推荐 通常 专 指向 用 户 显 式 地 呈现 某 些 产品 或 是 内 容 , 而 个 性 化 有 
时 也 偏向 隐 式 。 比 如 说 ， 对 MovieStream 的 搜索 功能 个 性 化 ， 以 根据 该 用 户 的 数据 来 改变 搜索 结 
果 。 这 些 数据 可 能 包括 基于 推荐 的 数据 (在 搜索 产品 或 内 容 时 )， 或 基于 地 理 位 置 和 搜索 历史 等 
各 种 数据 。 用 户 可 能 不 会 明显 感觉 到 搜索 结果 的 变化 ， 这 就 是 个 性 化 更 偏向 隐 性 的 原因 。 


2.2.2 目标 营销 和 客户 细 分 


目标 营销 用 与 推荐 类 似 的 方法 从 用 户 群 中 找 出 要 营销 的 对 象 。 一 般 来 说 , 推荐 和 个 性 化 的 应 
用 场景 都 是 一 对 一 ， 而 客户 细 分 则 试图 将 用 户 分 成 不 同 的 组 。 其 分 组 根据 用 户 的 特征 进行 ， 并 可 
能 参考 行为 数据 。 这 种 方法 可 能 比较 简单 ， 也 可 能 使 用 了 某 种 机 器 学 习 模型 ， 比 如 聚 类 。 但 无 论 
如 何 , 其 结果 都 是 对 市 场 的 若干 细 分 。 这 些 细 分 或 许 有 助 于 理解 各 组 用 户 的 共性 、 同 组 用 户 之 间 
的 相似 性 ， 以 及 不 同 组 之 间 的 差异 。 


这 些 将 能 帮助 MovieStream 理 解 用户 行 为 背后 的 动机 。 相 比 个 性 化 时 的 一 对 一 营销 ， 它 们 其 
至 还 能 有 助 于 制定 针对 用 户 群 的 更 为 广泛 的 营销 策略 。 


当 没有 已 标记 数据 时 ， 这 些 方法 能 帮助 制定 营销 策略 ， 而 非 采取 一 刀 切 的 方法 。 


2.2.3 ”预测 建 模 与 分 析 


第 三 种 机 器 学 习 的 应 用 领域 是 预测 性 分 析 。 这 个 词 的 范围 很 宽泛 , 甚至 从 某 种 意义 上 说 还 履 
盖 推 荐 、 个 性 化 和 目标 营销 。 再 考虑 到 推荐 和 市 场 细 分 有 所 区 别 ， 这 里 用 预测 建 模 (predictive 
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modeling ) 来 表示 其 他 做 预测 的 模型 。 借 助 活动 记录 、 收 入 数据 以 及 内 容 属 性 ，MovieStream 可 
以 创建 一 个 回归 模型 ( regression model ) 来 预测 新 电影 的 市 场 表现 。 

另外 , 我 们 也 可 使 用 分 类 模型 ( classificaiton model ) 来 对 只 有 部 分 数据 的 新 电影 自动 分 配 标 
签 、 关 键 字 或 分 类 。 


2.3 ”机 器 学 习 模型 的 种 类 


以 上 MovieSteam 的 例子 列 出 了 机 器 学 习 的 一 些 应 用 场景 , 但 这 些 并 非 全 部 。 后 面 几 章 在 介绍 
不 同 机 器 学 习 任 务 时 还 会 提 到 一 些 相 关 例 子 。 


以 上 应 用 案例 和 方法 大 致 可 分 为 如 下 两 种 。 


口 监督 学 习 (supervised learning) : 这 种 方法 使 用 已 标记 数据 来 学 习 。 推 荐 引 警 、 回 归 和 
分 类 便 是 例子 。 它 们 所 使 用 的 标记 数据 可 以 是 用 户 对 电影 的 评级 ( 对 推荐 来 说 )、 电 影 标 
签 (对 上 述 分 类 例子 来 说 ) 或 是 收入 数字 ( 对 回归 预测 来 说 )。 我 们 将 在 第 4 章 、 第 5 章 和 
第 6 章 讨 论 监督 学 习 。 

口 无 监督 学 习 (unsupervised learning) : 一 些 模型 的 学 习 过 程 不 需要 标记 数据 ， 我 们 称 其 
为 无 监督 学 习 。 这 类 模型 试图 学 习 或 是 提取 数据 背后 的 结构 或 从 中 抽取 最 为 重要 的 特征 。 
聚 类 、 降 维和 文本 处 理 的 某 些 特征 提取 都 是 无 监督 学 习 。 我 们 将 在 第 7 章 、 第 8 章 和 第 9 章 
分 别 介绍 它们 。 


2.4 数据 驱动 的 机 器 学 习 系 统 的 组 成 


从 高 层 设计 来 看 ， 我 们 的 机 器 学 习 系 统 的 组 成 如 图 2-2 所 示 ， 其 中 展示 了 机 器 学 习 的 流程 。 
该 流程 始 于 从 数据 存储 处 获取 数据 ， 之 后 将 其 转换 为 可 用 于 机 器 学 习 模 型 的 形式 。 随 后 的 环节 
有 对 模型 的 训练 、 测 试 和 完善 ， 以 及 将 最 终 的 模型 部 署 到 生产 系统 中 。 有 新 数据 产生 时 则 重复 


该 流程 。 


户 行为 


> 数据 收集 >》 模型 训练 S 模型 测试 DET 
A x 7 
Ce 2 
Se 2 


RS 及 全 
Se 癌 并 | 后 人 电 后 | 了 Sh 
模型 反馈 问 路 


图 2-2 ”常见 的 一 种 机 器 学 习 流程 
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2.4.1 数据 获取 与 存储 

机 器 学 习 流 程 的 第 一 步 是 获取 训练 模型 所 需 的 数据 。 与 其 他 公司 类 似 ，MovieStream 的 数据 
通常 来 自用 户 活 动 、 其 他 系统 ( 通常 称 作 机 器 生成 的 数据 ) 和 外 部 数据 源 ( 比如 某 个 用 户 访问 站 
点 的 时 间 和 当时 的 天 气 )。 

获取 这 些 数据 的 途径 很 多 ， 比如 收集 浏览 右 里 用 户 的 活动 记录 、 移动 应 用 的 事件 日 志 或 通过 
外 部 网 络 API 来 获取 地 理 或 天 气 信 息 。 


获取 数据 后 通常 需 将 其 存储 起 来 。 要 存储 的 数据 包括 : 原始 数据 、 即 时 处 理 后 的 数据 ， 以 及 
可 用 于 生产 系统 的 最 终 建 模 结果 。 


数据 存储 并 不 简单 ， 可 能 涉及 多 种 系统 。 文 件 系统 ， 如 HDFS、Amazon S3 等 ; SQL 数据 库 ， 
如 MySQL 或 PostgreSQL; 分 布 式 NoSQL 数 据 存储 , 如 HBase 、Cassandra 和 DynamoDB; 搜索 引擎 ， 
如 Solr 和 Elasticsearch; 流 数 据 系 统 ， 如 Kafka、Flume 和 Amazon Kinesis。 


本 书 假设 已 获取 相关 数据 ， 这 样 我 们 能 专注 在 流程 后 续 的 处 理 和 建 模 环节 。 


2.4.2 ”数据 清理 与 转换 


大 部 分 机 器 学 习 模型 所 处 理 的 都 是 特征 ( feature )。 特 征 通常 是 输入 变量 所 对 应 的 可 用 于 模 
型 的 数值 表示 。 


虽然 我 们 希望 能 将 大 部 分 时 间 用 于 机 带 学 习 模 型 探索 , 但 通常 经 上 述 途径 获取 到 的 数据 都 是 
原始 形式 ， 需 要 进一步 处 理 。 比 如 我 们 记录 的 一 些 用 户 事件 的 细节 ， 比 如 用 户 查 看 某 部 电影 页 面 
的 时 间 、 观 看 某 部 电影 的 时 间或 给 出 某 些 反馈 的 时 间 。 我 们 还 可 能 收集 了 一 些 外 部 信息 ， 比 如 用 
户 的 位 置 (通过 他 们 的 也 查 到 )。 这 些 时 间 日 志 通 常 由 一 些 文字 或 数值 信息 组 合 而 成 。 


绝 大 部 分 情况 下 , 这 些 原 始 数据 都 需要 经 过 预 处 理 才能 为 模型 所 使 用 。 预 处 理 的 情况 可 能 
括 以 下 几 种 。 


口 数据 过 滤 : 比如 我 们 想 从 原始 数据 的 部 分 数据 中 创建 一 个 模型 ， 而 所 需 数据 只 是 最 近 几 

月 的 活动 数据 或 是 满足 特定 条 件 的 事件 数据 。 

口 处 理 数据 缺失 、 不 完整 或 有 缺陷 : 许多 现实 中 的 数据 集 都 存在 某 种 程度 上 的 不 完整 。 这 
可 能 包括 数据 缺失 ( 比如 用 户 没 有 输入 )， 数 据 存在 错误 或 是 缺陷 〈 比如 数据 收集 或 存储 
时 的 错误 ， 又 或 是 技术 问题 或 漏洞 ， 以 及 软 硬 件 故 障 )。 可 能 要 过 滤 掉 非 规整 数据 ， 或 通 
过 某 种 方式 来 填充 缺失 的 数据 点 〈 比如 选取 数据 集 的 平均 值 来 作为 缺失 点 的 值 )。 

口 处 理 可 能 的 异常 、 错 误 和 异常 值 : 错误 或 异常 的 数据 可 能 不 利于 模型 的 训练 ， 所 以 需要 

过 滤 掉 ， 或 是 通过 某 些 方法 来 处 理 。 
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类 
下 


型 


| 
全 二 取 
这 


口 合并 多 个 数据 源 : 比如 可 能 要 将 各 个 用 户 的 事件 数据 与 不 同 的 内 部 数据 或 是 外 部 数据 合 
并 。 内 部 数据 如 用 户 属性 ; 外 部 数据 如 地 理 位 置 、 天 气 和 经 济 数据 。 

口 数据 汇总 : 某 些 模型 需要 输入 的 数据 进行 过 某 种 汇总 ， 比 如 统计 各 用 户 经 历 过 的 事件 类 
型 的 总 数目 。 


对 数据 进行 初步 预 处 理 后 ,需要 将 其 转换 为 一 种 适合 机 器 学 习 模 型 的 表示 形式 。 对 许多 模型 
来 说 , 这 种 表示 就 是 包含 数值 数据 的 向 量 或 矩阵 。 数 据 转换 和 特征 提取 时 常见 的 挑战 包括 以 
些 情况 。 


口 将 类 别 数据 〈 比如 地 理 位 置 所 在 的 国家 或 是 电影 的 类 别 ) 编码 为 对 应 的 数值 表示 。 

口 从 文本 数据 提取 有 用 信息 。 

口 处 理 图 像 或 是 音频 数据 。 

口 数值 数据 常 被 转换 为 类 别 数据 以 减少 某 个 变量 的 可 能 值 的 数目 。 例 如 将 年 龄 分 为 几 个 段 
( 比如 25~35、45~55 等 )。 

口 对 数值 特征 进行 转换 。 比 如 对 数值 变量 应 用 对 数 转换 ， 这 会 有 助 于 处 理 值 域 很 大 的 变量 。 
口 对 特征 进行 正则 化 、 标 准 化 ， 以 保证 同一 模型 的 不 同 输入 变量 的 值 域 相同 。 

口 特征 工程 是 对 现 有 变量 进行 组 合 或 转换 以 生成 新 特征 的 过 程 。 例 如 从 其 他 数据 求 平均 数 ， 
像 求 某 个 用 户 看 电影 的 平均 时 间 。 


这 些 方法 都 会 在 本 书 的 例子 中 讲 到 。 
这 些 数 据 清理 、 探 索 、 聚 合 和 转换 步 又 ,都 能 通过 Spark 核 心 API、SparkSQL 引 擎 和 其 他 外 部 


一 


Scala 、jJava 或 Python 包 做 到 。 借 助 Spark 的 Hadoop 功 能 还 能 实现 上 述 多 种 存储 系统 上 的 读 写 。 


2.4.3 ”模型 训练 与 测试 回路 


当 数 据 已 转换 为 可 用 于 模型 的 形式 , 便 可 开始 模型 的 训练 和 测试 。 在 这 个 部 分 , 我 们 主要 关 


注 模 型 选择 ( model selection ) 问题 。 这 可 以 归结 为 对 特定 任务 最 优 建 模 方法 的 选择 ， 或 是 对 特 
定 模 型 最 佳 参数 的 选择 问题 。 在 许多 情况 下 , 我 们 会 想 尝 试 多 种 模型 并 选 出 表现 最 好 的 那个 (各 
模型 都 采用 了 最 佳 的 参数 时 )。 因 而 ， 这 个 词 在 现实 中 经 常 同时 指 代 这 两 个 过 程 。 在 这 个 阶段 ， 
探索 多 个 模型 组 合 (也 称 集成 学 习 法 ，ensemble method ) 的 效果 也 很 常见 。 


在 训练 数据 集 上 运行 模型 并 在 测试 数据 集 ( 即 为 评估 模型 而 预 留 的 数据 , 在 训练 阶段 模型 没 


接触 过 该 数据 ) 上 测试 其 效果 ， 这 个 过 程 一 般 相 对 直接 ， 被 称 作 交叉 验证 (cross-validation )。 


然而 我 们 所 处 理 的 通常 是 大 型 数据 集 。 这样, 先 在 具有 代表 性 的 小 样本 数据 集 上 进行 初步 的 


训练 -测试 回路 ,或 是 尽 可 能 并 行 地 选择 模型 ， 都 会 有 所 帮助 。 


Spak 内 置 的 机 带 学 习 库 MLlib 完 全 能 胜任 这 个 阶段 的 需求 。 本 书 将 主要 关注 如 何 借助 MLlib 


和 Spark 核 心 功能 来 实现 对 各 种 机 融 学 习 方 法 的 模型 训练 、 评 佑 以 及 交叉 验证 。 
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2.4.4 ”模型 部 署 与 整合 
通过 训练 测试 循环 找 出 最 佳 模型 后 , 要 让 它 能 得 出 可 付 诸 实践 的 预测 , 还 需 将 其 部 署 到 生产 
系统 中 。 
这 个 过 程 一 般 要 将 已 训练 的 模型 导 人 特定 的 数据 存储 中 。 该 位 置 也 是 生产 系统 获取 新 版 本 的 
地 方 。 通 过 这 种 方式 ， 实 时 服务 系统 能 在 训练 新 模型 时 进行 周期 性 的 更 新 。 


2.4.5 ”模型 监控 与 反馈 


监控 机 器 学 习 系统 在 生产 环境 下 的 表现 十 分 重要 。 在 部 署 了 最 优 训 练 的 模型 后 ， 我 们 会 想 
知道 其 在 实际 中 的 表现 如 何 : 它 在 新 的 未 知 数据 上 的 表现 是 否 符合 预期 ” 其 准确 度 怎 么 样 ? 毕 
竞 不 管 之 前 的 模型 选择 和 优化 做 得 如 何 ， 检 验 其 实际 表现 的 唯一 方法 是 观察 其 在 生产 环境 下 的 
表现 Lo 


同样 值得 注意 的 是 , 模型 准确 度 和 预测 效果 只 是 现实 中 系统 表现 的 一 部 分 。 通 常 还 应 该 关 
注 其 他 业务 效果 ( 比如 收入 和 利润 率 ) 或 用 户 体验 ( 比如 站 点 使 用 时 间 和 用 户 总 体 活跃 度 ) 的 
相关 指标 。 多 数 情况 下 很 难 将 它们 与 模型 预测 能 力 直 接 关联 。 推 荐 系统 或 目标 营销 系统 的 准确 
度 可 能 很 重要 ,但 它 只 与 我 们 真正 关心 的 那些 指标 ( 如 用 户 体验 度 、 活 跃 度 以 及 最 终 收 入 ) 间 
接 相关 。 

所 以 , 现实 中 应 该 同时 监控 模型 准确 度 相 关 指 标 和 业务 指标 。 我 们 可 以 尽 可 能 在 生产 系统 中 
部 署 不 同 的 模型 ,通过 调整 它们 而 优化 业务 指标 ,实践 中 ,这 通常 通过 在 线 分 割 测试 ( live split test ) 
进行 。 然 而 ,做 好 这 类 测试 并 不 容易 。 在 线 测试 和 实验 可 能 引发 错误 ,也 可 能 效果 不 好 ,或 者 会 
使 用 基准 模型 这些 都 会 给 用 户 体验 和 收入 带 来 负面 影响 ， 故 其 代价 高 昂 。 


本 阶段 另 一 个 重要 的 方面 是 模型 反馈 ( model feedback )， 指 通过 用 户 的 行为 来 对 模型 的 预测 
进行 反馈 的 过 程 。 在 现实 系统 中 , 模型 的 应 用 将 影响 用 户 的 决策 和 潜在 行为 ， 从 而 反 过 来 将 从 根 
本 上 改变 模型 自己 将 来 的 训练 数据 。 

举例 来 说 ， 假 设 我 们 部 署 了 一 个 推荐 系统 。 由 于 推荐 实际 上 限制 了 用 户 的 可 选项 ， 从 而 影响 
了 用 户 的 选择 。 我 们 希望 用 户 的 选择 不 会 受 模型 的 影响 , 然而 这 种 反馈 回路 会 反 过 来 影响 模型 的 
训练 数据 ， 并 最 终 对 模型 准确 度 和 重要 的 业务 指标 产生 不 利 影响 。 

好 在 我 们 可 以 借助 一 些 机 制 来 降低 反馈 回路 的 这 种 负面 影响 , 比如 提供 一 些 无 偏见 的 训练 数 
据 。 这 类 数据 来 自 那 些 没 有 被 推荐 的 用 户 ， 又 或 者 在 一 开始 就 考虑 到 这 种 平衡 需求 而 划分 出 来 的 
客户 。 这 些 机 制 有 助 于 对 数据 的 理解 、 探 索 以 及 利用 已 有 的 经 验 来 提升 系统 的 表现 。 


第 10 章 将 会 简要 介绍 实时 监控 和 模型 更 新 的 部 分 内 容 。 
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2.4.6” 批 处 理 或 实时 方案 的 选择 


前 儿 方 简要 概括 了 常见 的 批 处 理 方法 。 在 这 类 方法 下 , 模型 用 所 有 数据 或 一 部 分 数据 进行 周 
期 性 的 重新 训练 。 由 于 上 述 流程 会 花费 一 定 的 时 间 , 这 就 使 得 批 处 理 方法 难以 在 新 数据 到 达 时 立 
即 完成 模型 的 更 新 。 


虽然 本 书 将 主要 讨论 批 处 理 机 器 学 习 方法 ， 但 的 确 存 在 一 类 名 为 在 线 学 习 (online learning ) 
的 机 器 学 习 方 法 。 它 们 在 新 数据 到 达 时 便 能 立即 更 新 模型 ， 从 而 使 实时 系统 成 为 可 能 。 常 见 的 例 
子 有 对 线性 模型 的 在 线 优 化 算法 ,如 随机 梯度 下 降 法 。 我 们 可 以 通过 例子 来 学 习 该 算法 。 这 类 方 
法 的 优势 在 于 其 系统 将 能 对 新 的 信息 和 底层 行为 ( 即 输 入 数据 的 特征 或 是 分 布 会 随时 间 变 化 , 现 
实 中 的 绝 大 部 分 情况 都 会 如 此 ) 作出 快速 的 反应 和 调整 。 


但 在 实际 生产 环境 中 ,在 线 学 习 模 型 也 会 面 对 特 有 的 挑战 。 比 如 ,对 数据 的 获取 和 转换 难以 
做 到 实时 。 在 一 个 纯 在 线 环境 下 选择 适当 的 模型 也 不 人 简单。 在线 训 练 和 模型 选择 以 及 部 署 阶段 的 
延 时 可 能 难以 达到 实时 性 的 需求 ( 比如 在 线 广告 对 延 时 的 需求 是 以 毫秒 计 )。 最 后 ， 批 处 理 框架 
不 适合 对 本 质 为 流 的 数据 进行 实时 处 理 。 


幸运 的 是 ,， Spark 提供 了 实时 流 处 理 组 件 Spark Streaming， 对 实时 机 需 学 习 任 务 来 说 是 个 不 错 
的 选择 。 第 10 章 将 探讨 Spark Streaming 和 在 线 学 习 问 题 。 


现实 中 的 实时 机 看 学 习 系 统 具 有 天 生 的 复杂 性 , 故 实践 中 大 部 分 的 系统 都 以 近 实时 性 为 设计 
目标 。 这 是 一 种 混合 方法 ， 它 并 不 要 求 模 型 一 定 在 数据 到 达 时 立即 更 新 。 相 反 ， 新 的 数据 会 被 收 
集 为 小 批量 的 训练 数据 ,再 输入 给 在 线 学 习 算 法 。 大 部 分 情况 下 ,该 方法 会 周期 性 地 进行 某 种 批 
处 理 。 处 理 的 内 容 可 能 包括 在 整个 数据 集 上 重新 计算 模型 ， 或 是 更 为 复杂 的 茶 些 数据 处 理 以 及 模 
型 的 选择 。 这 些 能 保证 实时 模型 的 表现 不 会 随时 间 推 移 而 变 差 。 

男 一 种 类 似 的 方法 是 , 在 周期 性 批 处 理 中 进行 重新 计算 时 , 若 有 新 的 数据 到 来 则 只 对 更 复杂 
的 模型 进行 近似 更 新 。 这 样 模型 可 从 新 的 数据 学 习 , 但 有 短暂 延迟 。 因 为 是 近似 更 新 ， 所 以 模型 
的 准确 度 会 随 着 时 间 推 移 而 下 降 。 但 周期 性 地 在 所 有 数据 上 重新 计算 模型 能 弥补 这 一 点 。 


2.5 ”机 器 学 习 系 统 架 构 


现在 我 们 已 经 了 解 了 如 何在 MovieStream 的 情景 中 应 用 机 器 学 习 系 统 ， 其 可 能 的 架构 可 概括 
为 图 2-3 所 示 : 
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离线 结果 
/A\ 
客户 和 电影 。 ”收入 预 
细 分 模型 测 模型 站 
SR -一 
营销 和 内 容 团 队 收入 团队 
图 2-3 ”MovieStream 的 未 来 架构 
如 图 所 示 ， 该 系统 包含 了 早先 机 需 学 习 流 程 示意 图 的 内 容 ， 此 外 还 包括 ; 


D 收集 与 用 户 、 用 户 行为 和 电影 标题 有 关 的 数据 ; 
口 将 这 些 数据 转 为 特征 


L; 


口 模型 训练 ， 包 括 训练 -测试 和 模型 选择 环节 ; 


口 将 已 训练 模型 部 署 到 在 线 服务 系统 ， 并 用 于 离线 处 理 ; 

口 通过 推荐 和 目标 页 面 将 模型 结果 反馈 到 MovieStream 站 点 ; 

口 将 模型 结果 返回 到 MovieStream 的 个 性 化 营销 渠道 ; 

口 使 用 离线 模型 来 为 MovieSteam 的 各 个 团队 提供 工具 ， 以 帮助 其 理解 用 户 的 行为 、 内 容 目 
录 的 特点 和 业务 收入 的 驱动 因素 。 


动手 练习 


1 


假设 你 现在 要 告知 前 端 和 基础 设施 工程 团队 你 的 机 带 学 习 系 统 需 要 哪些 数据 。 想 一 想 如 何 简 
要 告诉 他 们 该 如 何 设计 数据 收集 过 程 。 画 出 原始 数据 ( 比如 网 页 日 志 、 时 间 日 志 等 ) 可 能 的 结构 ， 


=E& 
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以 及 它们 在 系统 中 的 流向 。 需 要 考虑 的 方面 有 : 


口 需要 哪些 数据 源 

口 数据 格式 应 该 如 何 

口 数据 收集 、 处 理 、 可 能 进行 的 汇总 以 及 存储 的 频率 | 
口 使 用 何 种 存储 以 保证 可 扩展 性 


2.6 小 结 
本 章 , 你 学 到 了 数据 驱动 的 自动 化 机 器 学 习 系 统 由 哪些 部 分 构成 。 我 们 同样 也 描述 了 一 个 真 
实 系统 的 可 能 架构 。 


下 一 章 , 我 们 将 讨论 如 何 获取 公开 数据 集 以 用 于 常见 的 机 器 学 习 任 务 ， 了 解数 据 处 理 、 清 理 
和 转换 环节 的 一 些 基本 概念 。 经 过 这 些 环节 后 ， 数 据 便 可 以 用 于 训练 机 器 学 习 模 型 了 。 
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机 器 学 习 是 一 个 极为 广泛 的 领域 ， 其 应 用 范围 已 包括 Web 和 移动 应 用 、 物 联网 、 传 感 网 络 、 
金融 服务 、 医 疗 健康 和 其 他 科研 领域 ， 而 这 些 还 只 是 其 中 一 小 部 分 。 


由 此 ,可 用 于 机 器 学 习 的 数据 来 源 也 极为 广泛 。 本 书 将 重点 关注 其 在 商业 领域 的 应 用 。 这 类 
领域 中 可 用 的 数据 通常 由 组 织 的 内 部 数据 ( 比如 金融 公司 的 交易 数据 ) 以 及 外 部 数据 ( 比如 该 金 
融 公司 下 的 金融 资产 价格 数据 ) 构成 。 


以 第 2 章 假想 的 互联 网 公司 MovieStream 为 例 ， 其 主要 的 内 部 数据 包括 网 站 提供 的 电影 数据 、 
用 户 的 服务 信息 数据 以 及 行为 数据 。 这 些 数据 涉及 电影 和 相关 内 容 〈 比如 标题 、 分 类 、 图 片 、 演 
员 和 导演 )、 用 户 信息 ( 比如 用 户 属性 、 位 置 和 其 他 信息 ) 以 及 用 户 活动 数据 ( 比如 浏览 数 、 预 
览 的 标题 和 次 数 、 评 级 、 评 论 ， 以 及 如 赞 、 分 享 之 类 的 社交 数据 ， 还 有 包括 像 Facebook 和 Twitter 
之 类 的 社交 网 络 属性 )。 


其 外 部 数据 来 源 则 可 能 包括 天 气 和 地 理 定位 信息 ， 以 及 如 IMDB 和 Rotten Tomators 之 类 的 第 
三 方 电影 评级 与 评论 信息 等 。 

一 般 来 说 ,获取 实际 的 公司 或 机 构 的 内 部 数据 十 分 困难 ， 因 为 这 些 信 息 很 敏感 ( 尤其 是 购买 
记录 、 用 户 或 客户 行为 以 及 公司 财务 )， 也 关系 组 织 的 潜在 利益 。 这 也 是 对 这 类 数据 应 用 机 器 学 
习 建 模 的 实用 之 处 : 一 个 预测 精准 的 好 模型 有 着 极 高 的 商业 价值 (Netflix Prize 和 Kaggle 上 机 器 学 
习 比 赛 的 成 功 就 是 很 好 的 见证 )。 


本 书 将 使 用 可 以 公开 访问 的 数据 来 讲解 数据 处 理 和 机 器 学 习 模型 训练 的 相关 概念 。 
本 章 内 容 包括 : 


口 简要 概述 机 器 学 习 中 用 到 的 数据 类 型 ; 

口 举例 说 明 从 何 处 获取 感 兴趣 的 数据 集 (通常 可 从 因特网 上 获取 )， 其 中 一 些 会 用 于 阐述 本 
书 所 涉及 模型 的 应 用 ; 

口 了 解数 据 的 处 理 、 清 理 、 探 索 和 可 视 化 方法 ; 
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D 介绍 将 原始 数据 转换 为 可 用 于 机 器 学 习 算 法 特征 的 各 种 技术 ; 
口 学 习 如 何 使 用 外 部 库 或 Spa 永 内 置 函 数 来 正则 化 输入 特征 。 


3.1 获取 公开 数据 集 


商业 敏感 数据 虽然 难以 获取 , 但 好 在 仍 有 相当 多 有 用 数据 可 公开 访问 。 它 们 中 的 不 少 常用 来 
作为 特定 机 需 学 习 问题 的 基准 测试 数据 。 常 见 的 有 以 下 几 个 。 


口 UCL 机 器 学 习 知 识 库 : 包括 近 300 个 不 同 大 小 和 类 型 的 数据 集 ， 可 用 于 分 类 、 回 归 、 聚 类 

和 推荐 系统 任务 。 数 据 集 列 表 位 于 : http://archive.ics.uci.edu/ml/。 

DAmazon AWS 公 开 数 据 集 : 包含 的 通常 是 大 型 数据 集 , 可 通过 Amazon S3 访 问 。 这 些 数据 
集 包 括 人 类 基因 组 项 目 、Common Crawl 网 页 语料库 、 维 基 百 科 数 据 和 Google Books 
Ngrams。 相 关 信 息 可 参见 : http://aws.amazon.com/publicdatasets/。 

口 Kaggle: 这 里 集合 了 Kaggle 举 行 的 各 种 机 器 学 习 竞 赛 所 用 的 数据 集 。 它 们 覆盖 分 类 、 回 
归 排名、 推荐 系统 以 及 图 像 分 析 领域 , 可 从 Competitions 区 域 下载 : http://www.kaggle.com/ 
competitions。 

口 KDnuggets: 这 里 包含 一 个 详细 的 公开 数据 集 列 表 ， 其 中 一 些 上 面 提 到 过 的 。 该 列表 位 

于 : http:/www.kdnuggets.com/datasets/index.html。 


» 针对 特定 的 应 用 领域 与 机 器 学 习 任 务 , 仍 有 许多 其 他 公开 数据 集 。 希望 你 自 
ea 己 也 会 接触 到 一 些 有 趣 的 学 术 或 是 商业 数据 。 


为 说 明 Spark 下 的 数据 处 理 、 转 换 和 特征 提取 相关 的 概念 ， 需 要 下 载 一 个 电影 推荐 方面 的 常 
用 数据 集 MovieLens。 它 能 应 用 于 推荐 系统 和 其 他 可 能 的 机 器 学 习 任务 ， 适 合作 为 示例 数据 集 。 


Spark 的 机 器 学 习 库 MLlib 一 直 在 紧锣密鼓 地 开发 。 但 和 Spark 的 核心 不 同 ， 
其 全 局 API 和 设计 的 进度 尚未 完全 稳定 。 

Spark 1.2.0 引 入 了 一 个 实验 性 质 的 新 MLlib API[， 位 于 ml 包 下 ( 现 有 的 接口 
则 位 于 ml11ib 包 下 )。 新 API 旨 在 加 强 原 有 的 API 和 接口 的 设计 ， 从 而 更 容易 衔接 

数据 流程 的 各 个 环节 。 这 些 环节 包括 特征 提取 、 正 则 化 、 数 据 集 转化 、 模 型 训练 
一 和 交叉 验证 。 

新 API 仍 处 于 实现 阶段 ， 在 后 续 的 版 本 中 可 能 会 出 现 重大 的 变更 。 因 此 ， 后 
续 的 章节 将 只 关注 相对 更 成 熟 的 现 有 MLlib API。 随 着 版 本 的 更 新 ， 本 书 所 提 到 
的 各 种 特征 提取 方法 和 模型 将 会 简单 地 桥接 到 新 API 中 。 但 新 API 的 核心 思路 和 
大 部 分 底层 代码 仍 会 保持 原样 。 
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MovieLens 100k 数 据 集 
MovieLens 100k 数 据 集 包 含 表 示 多 个 用 户 对 多 部 电影 的 10 万 次 评级 数据 ， 也 包含 电影 元 数据 
和 用 户 属 性 信息 。 该 数据 集 不 大 ,方便 下 载 和 用 Spark 程 序 快速 处 理 ， 故 适合 做 讲解 示例 。 
可 从 http://files.grouplens.org/datasets/movielens/ml-100k.zip 下 载 这 个 数据 集 。 
下 载 后 ， 可 在 终端 将 其 解压 : 
>unzip ml-100k.zip 
inflating: ml-100k/allbut .pl 


inflating: ml-100k/mku.sh 
inflating: ml-100k/README 


Ly 


inflating: ml-100k/ub.base 
inflating: ml-100k/ub.test 


这 会 创建 一 个 名 为 ml-100k 的 文件 来。 下 面 变更 当前 目录 到 该 目录 然后 查看 
要 的 文件 有 uuser ( 用 户 属性 文件 )、u.item (电影 元 数据 ) 和 u.data〈 用 户 对 电影 的 评级 )。 


>cd ml-100k 


关于 数据 集 的 更 多 信息 可 以 从 README 获 得 ， 包 括 每 个 数据 文件 里 的 变量 定义 。 我 们 可 以 
使 用 heaq 命 令 来 查看 各 个 文件 中 的 内 容 。 


比如 说 ， 可 以 看 到 u.user 文 件 包 含 user .iaQ、 age、gender、 occupation 和 ZIP code 这 些 
属性 ， 各 属性 之 间 用 管道 符 ( | ) 分 隔 。 


>head -5 u.user 
11241MItechnician185711 
2153|1F|Iother|94043 
31231MIwriter132067 
41241MItechnician143537 
51331FIlother|15213 


乞 
吉 
) 

二 
二 


uitem 文 件 则 包含 movie ida、title、release date 以 及 若干 与 IMDB 1ink 和 电影 分 类 相 
关 的 属性 。 各 个 属性 之 间 也 用 1 符号 分 隔 : 


>head -5 u.item 

1l|lToy Story (1995)|101-Jan-1995||http://us.imdb.com/M/title-exact?Toy%20 
Story%20(1995)10101011111110101010101010101010101010 

2|GoldenEye (1995)|101-Jan-1995| |http://us.imdb.com/M/title- 
exact?GoldenEye%20(1995)10111110101010101010101010101010111010 

31Pour Rooms (1995)|101-Jan-1995||http://us.imdb.com/M/title- 
exact?Four%20Rooms%20(1995)10101010101010101010101010101010111010 

41Get Shorty (1995)|101-Jan-1995| |http://us.imdb.com/M/title- 
exact?Get%20Shorty%20(1995)10111010101110101110101010101010101010 

5|lCopycat (1995)|101-Jan-1995||http://us.imdb.com/M/title- 
exact?Copycat%20(1995)10101010101011101110101010101010111010 


最 后 ，u.data 文 件 包含 user ida、movie id、rating (从 1 到 5 ) 和 timestamp 属 性 ， 各 属 
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性 间 用 制 表 符 (\t ) 分 隔 。 


>head -5 u.data 
196 242 3 881250949 


186 302 3 891717742 
22 377 1 878887116 
244 51 2 880606923 
166 346 1 886397596 


3.2 ”探索 与 可 视 化 数据 


有 数据 后 ， 用 启动 Spark 交 互 式 终端 来 探索 该 数据 吧 ! 本 节 将 通过 IPython 交 互 式 终端 和 Sol 
matplotlib 库 来 对 数据 进行 处 理 和 可 视 化 ， 故 我 们 会 用 到 Python 和 PySpark shell。 


IPython 是 针对 Python 的 一 个 高 级 交互 式 党 程序 ,包含 内 置 一 系列 实用 功能 的 
pylab， 其 中 有 NumPy 和 SciPy 用 于 数值 计算 ， 以 及 matplotlib 用 于 交互 式 绘图 和 可 


机 视 化 。 

建议 使 用 最 新 版 的 IPython ( 本 书写 作 时 为 2.3.1 )。IPython 的 安装 方法 可 参考 
如 下 指引 : http://ipython.org/install.html。 如 果 这 是 你 第 一 次 使 用 IPython, 这 里 有 
一 个 教程 : http://ipython.org/ipython-doc/stable/interactive/tutorial.html。 


运行 本 章 代 码 需 要 之 前 提 到 的 所 有 软件 包 。 它们 的 安装 指南 可 从 源 代码 包 中 找到 。 如 果 你 刚 
开始 使 用 Python 且 不 熟悉 这 些 包 的 安装 过 程 ,我 们 强烈 推荐 你 使 用 一 个 预 编译 的 科学 Python 套 件 ， 
比如 Anaconda( http://continuum.io/downloads ) 或 Enthougt( https://store.enthought.com/downloads )。 
这 些 套 件 极 大 简化 了 安装 过 程 晶 包含 运行 本 章 代码 所 需 的 一 切 。 

PySpark 支 持 运 行 Python 时 可 指定 的 参数 。 在 启动 PySpark 终 端 时 ， 我 们 可 以 使 用 了 Python 而 非 
标准 的 Python shell。 启 动 时 也 可 以 向 IPython 传 人 其 他 参数 ,包括 让 它 在 启动 时 也 启用 pylab 功 能 。 

可 以 在 Spark 主 目录 下 运行 如 下 命令 来 实现 上 述 需 求 : 

>IPYTHON=1 IPYTHON OPTS="--pylab" ./bin/pyspark 


可 以 看 到 PySpark 终 端 会 启动 ， 其 输出 和 下 面 类 似 : 


终端 里 的 IPython 2.3.1 -- An enhanced Interactive Python 和 
| SO 
> Using matplotlib backend: MacOSX 输 出 行 表示 IPython 和 pylab 均 已 被 

PySpark 启 用 。 


实际 使 用 的 操作 系统 和 软件 版 本 的 不 同 ， 实 际 的 输出 可 能 会 有 所 不 同 。 
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AaAn Spark-1.2.0-bln-hadoop2.4 一 java 一 121x56 we 


INicxs -HacBook-Pro: spars~1.2.8-bin-hadoop2.4 NMick$ ITPYT 
Python 2.7.8 |Anaconda 2.8.1 (x86_64]1 (default, Aug 23 
Type “copyright", "credits™” or "\icense” tfor nore information, 


pylab" ./bin/pyspark 


15:21746) 


IPython 2.3.1 一 An enhanced Interactive Python, 
Anaconda is brought to you by Continuse Analytics. 
Fe Eyeck out: Nttp://continvue, LOATNankKS ond Nttps://bIiNStar.org 
-> Introduction and Overview of IPython"s features,. 
Nauickrer -> Quick reference。 
help -> Python's own Nelp systen, 
objecr? -> Derails about ‘object', use "object??’ tor extra deraills, 
Using matplotlib backend: MacDSX 
Spark assenbly has been built with Hive, including baranucteus jars on classpath 
Using Spark's cetault icg4j profite: org/spache/spark/logsj-detaults.properties 
234/13/38 18:81515 WARM Utils: Your hostname, Nicks-MacBook-Pro,. local resolves to s loopback address: 127,0,8,1; using 19. 
.8.3 instead (on interface cn) 
14/11/38 18:81:15 WARM Utils: Set SPARX_ LOCAL_IP if you need to bind to another address 
14/11738 18:81:15 INFO SecurityManager: Changing view act5 to: Nick 
34/11/30 19: 15 INFO Securitymanager: Changing modity acts to: Nick 
14/11738 18:81:15 INFO SecurityManager: SecurityManager: authentication disabled; ui act5 disabled; users vith vicw permi 
ssions: Set(Nick); users with nodify permissions: Set(NMick) 
4/11/30 18:81:15 INFO Sif4jLogger: Sif4jLogger storted 
324/11/30 16 INFO Remoting: 5tarting reaoting 
14/13738 16 INFO Remoting: Resoting started; \istening on addresses :1akka-tcp:/15parkDrivere18.8.8.3:56718] 
14/7137 15 INFO Utils: Successtully started service '5parkDriyer， on port 56718, 
16 INFO SparkEnv; Registering MapOutputTracker 
16 INFO SparkEnv: Registering BlociManagerNaster 
16 INFO DisxBiockNanager: Created iocal directory at /var/fotders/_1/86wxtjit13vqgs7TrsBj1c44_r99689n7T/Spar 
41130109116-b416 
14/11/30 10:81:16 INFO MemoryStore: MenoryStore started with capacity 265,4 MB 
314/11/38 10:81:16 MARN NativeCodetLoader: Unable to load native-hadoop Uibrary for your plattora... using builtin-java cia 
sses where applicable 
4/11/30 10:81:16 INFO HttpFileServer: HTTP File server directory is /var/fotders/_UVe6sxtjti3wqgn7yr98j1c44_r998980n/T/5pa 
rx-4468b66b-f224-4e97-5771-9e43f3a62747 
14/11738 19:81:16 INFO MttpServer: Starting MTTP Server 


14/11738 
14/13738 
k-local~. 


14/11/ 16 INFO Utils: Successtully started service ‘HTTP file server’ on port 56719。 

14/13/ 17 INFO Utils: Successtully started service ‘SparkUI' on port 4040, 

14/1 17 INFO SparkuI: Started SparkUI at http://19.0.0.3:4840 

14/11 18:81:17 INFO AxkaUtils: Connecting to KeartbeatAeceiver: okke, tcp://sparkDrivergie.0,.0,3:56718/user/Meartbeatne 


cetver 
14/11/39 18 INFO Netty8lockTransterService: Server created on 56728 

134/11/38 10: INFO BlockManagermaster: Trying to register BlociManager 

14/11/38 18: INFO BlockManagermasterActor: Registering block nanager \ocalhost:56720 with 265.4 MB RAMW, SlockManager 
Id{<driver>, localhost, 56728) 

14/13738 18:91:17 INFO BlockManagermaster: Registered BlockNanager 

Welcone to 


/ /7 


机 1 
NN version 1.2.8 


Using Python version 2.7.8 {detfault, Aug 21 28014 15:21:46) 
SporkContext availtabte as sc. 


图 3-1 ”IPython 下 的 PySpatk 的 终端 界面 
现在 IPython 终 端 已 启动 ， 我 们 可 以 探索 MovieLens 数 据 集 并 做 些 基 本 分 析 。 


在 本 章 的 学 习 过 程 中 ， 你 可 以 将 样本 代码 输入 到 IPython 终 端 ， 也 可 通过 
人 Notebook 应 用 来 完成 。 后 者 支持 支持 HTML 显 示 ， 且 在 IPython 终 
端的 基础 上 提供 了 一 些 增强 功能 ， 如 即时 绘图 、HTML 标 记 ， 以 及 独立 运行 代码 
片段 的 功能 。 
本 章 的 图 片 使 用 IPython Notebook 生 成 。 它 们 的 样式 可 能 会 和 你 看 到 的 不 同 ， 
但 只 要 内 容 上 一 致 就 没关系 。 如 果 愿 意 ， 你 也 可 以 使 用 Notebook 来 运行 本 章 的 代 
码 。 本 章 除 提供 Python 代码 外 ， 还 提供 相应 的 IPython Notebook 版 本 ， 以 供 你 导 
入 到 IPython Notebook 中 。 
IPython Notebook 的 使 用 指南 可 参见 : http://ipython.org/ipython-doc/stable/ 
interactive/notebook.html。 


3.2.1 探索 用 户 数据 


首先 来 分 析 MovieLens 用 户 的 特征 。 在 你 的 终端 里 输入 如 下 代码 (其 中 的 PATH 是 指 用 unzip 
命令 来 解压 MovieLens 100k 数 据 集 时 所 生成 的 主 目录 ): 
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user_data = sc.textFile("/PATH/ml-100k/u.user") 
user_data.first() 


其 输出 应 该 与 下 面 类 似 : 
u'1l24|IM|Itechnician|85711' 


这 是 用 户 数 据 文件 的 首 行 。 从 中 可 以 看 到 ， 它 是 由 “1” 字 符 分 隔 。 


>» first 哆 数 与 collect 函 数 类 似 ,， 但 前 者 只 向 驱动 程序 返回 RDD 的 首 个 元 


素 。 我们 也 可 以 使 用 take (k) 函数 来 只 返回 RDD 的 前 kK 个 元 素 到 驱动 程序 。 ol 


下 面 用 “1” 字 符 来 分 隔 各 行 数据 。 这 将 生成 一 个 RDD ， 其 中 每 一 个 记录 对 应 一 个 Python 列 
表 , 各 列表 由 用 户 ID (userID )、 年 龄 (age) 性 别 (gender )、 职 业 (occupation ) 和 邮编 (ZIP code ) 
五 个 属性 构成 。 


之 后 再 统计 用 户 、 性 别 、 职 业 和 邮编 的 数目 。 这 可 通过 如 下 代码 实现 。 该 数据 集 不 大 ， 故 这 
里 并 未 缓存 它 。 


user_fields = user_data.map (lambda line: line.split("|")) 

num users = user_fields.map(lambda fields: fields{[0]).count() 

num _ genders = user_fields.map (lambda fields: 

fields[2]) .distinct() .count () 

num_ occupations = user_fields.map(lambda fields: 

fields[3]) .distinct().count() 

num zipcodes = user_fields.map(lambda fields: 

fields[4]) .distinct() .count () 

print "Users: %$d, genders: $d, occupations: %$d, ZIP codes: $d" $ (num users, num_ genders, 
num_occupations, num zipcodes) 


对 应 输出 如 下 : 


Users: 943, genders: 2, occupations: 21, ZIP codes: 795 


接着 用 matplot1ib 的 hist 函 数 来 创建 一 个 直方 图 ， 以 分 析 用 户 年 龄 的 分 布 情况 : 


ages = user_fields.map (lambda x: int (x[1])).collect() 

hist(ages, bins=20, color='lightblue', normed=True) 

fig = matplotlib.pyplot.gcf() 

fig.set_size_inches(16, 10) 

这 里 hist 函 数 的 输入 参数 有 ages 数 组 、 直 方 图 的 bins 数 目 〈 即 区 间 数 ， 这 里 为 20 )。 同 时 
还 使 用 了 normed=True 参 数 来 正则 化 直方 图 ， 即 让 每 个 方 条 表示 年 龄 在 该 区 间 内 的 数据 量 占 总 
数据 量 的 比 。 


你 将 能 看 到 图 3-2 所 示 的 直方 图 。 从 中 可 以 看 出 MovieLens 的 用 户 偏 年 轻 。 大 量 用 户 处 于 15 岁 
到 35 岁 之 间 。 
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图 3-2 ”用 户 的 年 龄 段 分 布 


若 想 了 解 用 户 的 职业 分 布 情况 ,可 以 用 如 下 的 代码 来 实现 。 首 先 利用 之 前 用 到 的 MapReduce 
方法 来 计算 数据 集中 各 种 职业 的 出 现 次 数 ， 然 后 matplot1ib 下 的 bar 函 数 来 绘制 一 个 不 同 职 ， 
的 数量 的 条 形 图 。 


数据 中 对 职业 的 描述 用 的 是 文本 ， 所 以 需要 对 其 稍 作 处 理 以 便 bar 函 数 使 用 : 


count_by_occupation = user_fields.map(lambda fields: (fields[3], 1)). 
reduceByKey (lambda x, y: x + y).collect() 

x_axisl = np.array ([c[0] for c in count_by_occupation]) 

y_axisl = np.array ([c[1] for c in count_ by_occupation]) 


在 得 到 各 职业 所 占 数量 的 RDD 后 ， 需 将 其 转 为 两 个 数组 才能 用 来 做 条 形 图 。 它 们 分 别 对 应 x 
轴 (职业 标签 ) 与 y 轴 (数量 )。collect 函 数 返 回 数量 数据 时 并 不 排序 。 我 们 需要 对 该 数据 进行 
排序 ， 从 而 在 条 形 图 中 以 从 少 到 多 的 顺序 来 显示 各 个 职业 。 


为 此 可 先 创 建 两 个 numpy 数 组 。 之 后 调用 numpy 的 argsort 函 数 来 以 数量 升序 从 各 数组 中 选 
取 元 素 。 注 意 这 里 会 对 x 轴 和 y 轴 的 数组 都 以 y 轴 值 排 序 ( 即 以 数量 排序 ): 


x_axis = x_axisl[np.argsort (y_axis1)] 
y_axis = y_axisl[np.argsort (y_axis1)] 


有 了 条 形 图 两 轴 所 需 的 数据 后 便 可 创建 条 形 图 。 创 建 时 ,会 以 职业 作为 x 轴 上 的 分 类 标签 ， 
以 数量 作为 y 轴 的 值 。 下 面 的 代码 也 增加 了 如 plt .xticks (rotation=30) 之 类 的 代码 来 美化 条 
形 图 oO 
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pos = np.arange (len (x_axis)) 
widthy ,0 


ax = plt.axes() 
ax.set_xticks(pos + (width / 2)) 
ax.set_xticklabels (x_axis) 


plt.bar(pos, y_axis, width, color='lightblue') 
plt.xticks (rotation=30) 

fig = matplotlib.pyplot.gcf() 

fig.set_size inches(16, 10) 


生成 的 图 形 应 该 和 图 3-3 类 似 。 从 中 可 看 出 ， 数 量 最 多 的 职业 是 student、other、educator、 


administrator 、engineer 和 programmer。 
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图 3-3 用户 的 职业 分 布 


Spark 对 RDD 提 供 了 一 个 名 为 countByValue 的 便捷 函数 。 它 会 计算 RDD 里 各 不 同 值 所 分 别 
出 现 的 次 数 , 并 将 其 以 Python aict 函 数 的 形式 ( 或 是 Scala 、Java 下 的 Map 函 数 ) 返回 给 驱动 程序 ; 


count_by_occupation2 = user_fields.map (lambda fields: fieldqs[3]).countByValue() 
print "Map-reduce approach:" 

print dict (count_by_occupation2) 

Drint Tn 

print "countByValue approach:" 

print dict (count_by_occupation) 


可 以 看 到 ， 上 述 两 种 方式 的 结果 相同 。 
3.2.2 ”探索 电影 数据 


接 下 来 了 解 下 电影 分 类 数据 的 特征 。 如 之 前 那样 , 我们 可 以 先 简单 看 一 下 某 行 记录 , 然后 再 
统计 电影 总 数 。 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


42 第 3 章 ”Spark 上 数据 的 获取 、 处 理 与 准备 


movie_ data = sc.textFile("/PATH/ml-100k/u.item") 
print movie data.first() 
num movies = movie_ data.count() 


9 


print "Movies: %d" % num movies 
其 终端 上 的 输出 如 下 : 


llToy Story (1995)|101-Jan-1995| |http://us.imdb.com/M/title-exact?Toy%20Story%20 

(1995)10101011111110101010101010101010101010 

Movies: 1682 

绘制 电影 年 龄 的 分 布 图 的 方法 和 之 前 对 用 户 年 龄 和 职业 分 布 的 处 理 类 似 。 电影 年 龄 即 其 发 行 
年 份 相对 于 现在 过 了 多 少年 〈 在 本 数据 中 现在 是 1998 年 )。 


从 下 面 的 代码 可 以 看 到 , 电影 数据 中 有 些 数 据 不 规整 , 故 需要 一 个 函数 来 处 理解 析 *elease 
date 时 可 能 的 解析 错误 。 这 里 命名 该 函数 为 convert_yeat: 


def convert_year (x): 
try: 
Fever Tn (R=]) 
except: 


return 1900 # 若 数据 缺失 年 份 则 将 其 年 份 设 为 1900。 在 后 续 处 理 中 会 过 滤 掉 这 类 数据 


有 了 以 上 函数 来 解析 发 行 年 份 后 ， 便 可 在 调用 电影 数据 进行 nap 转换 时 应 用 该 函数 ， 并 取 回 
其 结果 : 


movie_ fields = movie data.map(lambda lines: lines.split("|")) 
years = movie fields.map(lambda fields: fields[2]) .map(lambda x: convert_ year (x)) 


解析 出 错 的 数据 的 年 份 已 设 为 1900。 要 过 滤 掉 这 些 数 据 可 以 使 用 Spark 的 filter 转 换 操作 : 
years_filtered = years.filter(lambda x: x != 1900) 


现实 的 数据 经 常会 有 不 规整 的 情况 ， 对 其 解析 时 就 需要 进一步 的 处 理 。 上 面 便 是 一 个 很 好 
的 例子 。 事 实 上 ， 这 也 表明 了 数据 探索 的 重要 性 所 在 ， 即 它 有 助 于 发 现 数据 在 完整 性 和 质量 上 
的 问题 。 


过 滤 掉 问题 数据 后 , 我 们 用 当前 年 份 减 去 发 行 年 份 ， 从 而 将 电影 发 行 年 份 列表 转换 为 电影 
龄 。 接 着 用 countByVvalue 来 计算 不 同年 龄 电影 的 数目 。 最 后 绘制 电影 年 龄 直方 图 ( 同样 会 使 用 
hist 困 数 ， 且 其 values 变 量 的 值 来 自 countByValue 的 结果 ， 主 键 则 为 bins 变 量 ): 


movie ages = years_filtered.map (lambda yr: 1998-yr) .countByValue() 
values = movie ages.values() 
bins = movie ages.keys() 
hist(values, bins=bins, color='lightblue', normed=True) 
fig = matplotlib.pyplot.gcf() 

fig.set_size inches(16,10) 


你 会 看 到 如 图 3-4 这 样 的 结果 。 它 表明 大 部 分 电影 发 行 于 1998 年 的 前 几 年 。 
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图 3-4 ”电影 的 年 龄 分 布 


3.2.3 ”探索 评级 数据 
现在 来 看 一 下 评级 数据 : 


rating_data = sc.textFile("/PATH/ml-100k/u.data") 
print rating data.first() 


num ratings = rating_ data.count() 
print "Ratings: %d" %$ num ratings 
这 些 代 码 的 输出 为 : 

196 242 3 881250949 


Ratings: 100000 


可 以 看 到 评级 次 数 共有 10 万 。 另 外 和 用 户 数据 与 电影 数据 不 同 , 评级 记录 用 “\t” 分隔。 你 
可 能 也 已 想到 ， 我 们 会 想 做 些 基本 的 统计 ， 以 及 绘制 评级 值 分 布 的 直方 图 。 动 手 吧 : 


rating_data = rating_ data raw.map(lambda line: line.split("\t")) 
ratings = rating_ data.map(lambda fields: int (fields[2])) 
max_rating = ratings.reduce(lambda x, y: max(x, y)) 

min rating = ratings.reduce(lambda x, y: min(x, y)) 

mean_ rating = ratings.reduce(lambda x, y: x + y) / num ratings 
median _ rating = np.median(ratings.collect()) 

ratings_per_ user = num ratings / num users 
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ratings_per_ movie = num ratings / num movies 
print "Min rating: gdq" min_ rating 

print "Max rating: gaQn" 
print "Average rating: %2.2f" % mean_ rating 


9 


print "Median rating: %d" % median rating 


GO 


GO 


max_rating 


9 


print "Average # of ratings Per user: g%2.2f" % ratings_per user 
print "Average # of ratings per movie: %2.2f" % ratings_per_ movie 


在 终端 执行 以 上 命令 后 ， 输 出 应 该 与 下 面 类 似 : 


Min rating: 1 

Max rating: 5 

Average rating: 3.53 

Median rating: 4 

Average # of ratings per user: 106.00 
Average # of ratings per movie: 59.00 


从 中 可 以 看 到 ， 最 低 的 评级 为 1， 而 最 大 的 评级 为 5$。 这 并 不 意外 ， 因 为 评级 的 范围 便 是 从 1 


有 ||5。 


Spark 对 RDD 也 提供 一 个 名 为 states 的 函数 。 该 函数 包含 一 个 数值 变量 用 于 做 类 似 的 统计 : 


ratings.stats() 
其 输出 为 : 
(count: 100000, mean: 3.52986, stdev: 1.12566797076, max: 5.0，min: 1.0) 


可 以 看 出 ， 用 户 对 电影 的 平均 评级 ( mean ) 5 左右 ， 而 评级 中 位 数 (median ) > 
能 期 待 说 评级 的 分 布 稍 倾向 高 点 的 得 分 。 要 验证 这 点 ,可 以 创建 一 个 评级 值 分 布 的 条 
做 法 和 之 前 的 类 似 : 


count_by_rating = ratings.countByValue() 

x_axis = np.array (count_by_rating.keys()) 

y_axis = np.array ([float(c) for c in count by_rating.values()]) 
# 这 里 对 y 轴 正则 化 ， 使 它 表 示 百 分 比 

y_axis normed = y_axis / y_axis.sum!() 

pos = np.arange (len (x_axis)) 

width = 1.0 


ax = plt.axes() 
ax.set_xticks(pos + (width / 2)) 
ax.set_xticklabels (x_axis) 


plt.bar(pos, y_axis_ normed, width, color='lightblue') 
plt.xticks (rotation=30) 

fig = matplotlib.pyplot.gcf() 

fig.set_size_inches(16, 10) 


这 会 生成 图 3-5 所 示 的 结果 : 
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图 3-5 ”电影 评级 的 分 布 

其 特征 和 我 们 之 前 所 期 待 的 相同 ， 即 评级 的 分 布 的 确 偏向 中 等 以 上 。 

同样 也 可 以 求 各 个 用 户 评级 次 数 的 分 布 情况 。 记 得 之 前 我 们 已 对 评级 数据 用 制 表 符 分 隔 , 从 
而 生成 过 rating_dqataRDD。 后 续 的 代码 中 将 再 次 用 到 该 RDD 变 量 。 


计算 各 用 户 的 评级 次 数 的 分 布 时 ， 我 们 先 从 rating_dqataRDD 里 提取 出 以 用 户 ID 为 主键 、 
评级 为 值 的 键 值 对 。 之 后 调用 Spark 的 groupByKey 函 数 ， 来 对 评级 以 用 户 ID 为 主键 进行 分 组 : 


user_ratings_grouped = rating data.map(lambda fields: (int (fields[0]), 
int (fields[2]))).\ 
groupByKey () 


接着 求 出 每 一 个 主键 ( 用户 ID ) 对 应 的 评级 集合 的 大 小 ; 这 会 给 出 各 用 户 评级 的 次 数 : 


user_ratings_byuser = user_ratings_grouped.map(lambda (k, v): (k, len(v))) 
user_ratings_byuser.take(5) 


要 检查 结果 RDD， 可 从 中 选 出 少数 记录 。 这 应 该 会 返回 一 个 (用 户 ID, 评级 次 数 ) 键 值 对 类 型 
的 RDD: 


[(1, 272), (2, 62), (3, 54), (4, 24), (5, 175)] 
最 后 ， 用 我 们 所 熟悉 的 hi st 函数 来 绘制 各 用 户 评级 分 布 的 直方 图 。 


user_ratings_byuser_local = user_ratings_byuser.map(lambda (k, Vv): Vv).collect() 
hist(user_ratings_byuser_local, bins=200, color='lightblue', normed=True) 

fig = matplotlib.pyplot.gcf() 

fig.set_size_ inches(16,10) 


结果 如 图 3-6 所 示 。 可 以 看 出 ， 大 部 分 用 户 的 评级 次 数 少 于 100。 但 该 分 布 也 表明 仍然 有 较 多 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


46 第 3 章 Spark 上 数据 的 获取 、 处 理 与 准备 


用 户 做 出 过 上 百 次 的 评级 。 
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图 3-6 各 用 户 的 电影 评级 的 分 布 


可 以 用 类 似 的 方法 绘制 各 个 电影 评级 次 数 的 直方 图 , 读者 可 自己 练习 。 如 果 觉 得 不 够 ,甚至 
还 可 以 提取 出 不 同日 期 (可 从 评级 数据 集 的 最 后 一 列 的 时 间 蕉 得 到 ) 下 的 电影 评级 情况 ,进而 绘 
制 出 总 评级 次 数 、 参 与 评级 的 不 同 用 户 的 个 数 ， 以 及 被 评级 的 不 同 电影 的 个 数 的 时 间 线 。 时 间 线 
精确 到 每 天 。 


3.3 ”处 理 与 转换 数据 


现在 我 们 已 对 数据 集 进行 过 探索 性 的 分 析 , 并 了 解 了 用 户 和 电影 的 一 些 特征 。 那 接 下 来 做 什 
么 呢 ? 


为 让 原始 数据 可 用 于 机 顺 学 习 算 法 ， 需 要 先 对 其 进行 清理 ， 并 可 能 需要 将 其 进行 各 种 转换 ， 
之 后 才能 从 转换 后 的 数据 里 提取 有 用 的 特征 。 数 据 的 转换 和 特征 提取 联系 紧密 。 茶 些 情况 下 ,一 
些 转换 本 身 便 是 特征 提取 的 过 程 。 

在 之 前 处 理 电影 数据 集 时 我 们 已 经 看 到 数据 清理 的 必要 性 。 一 般 来 说 , 现实 中 的 数据 会 存在 
信息 不 规整 、 数 据点 缺失 和 有 异常 值 问题 。 理 想 情况 下 ,我 们 会 修复 非 规整 数据 。 但 很 多 数据 集 都 
源 于 一 些 难 以 重 现 的 收集 过 程 〈 比如 网 络 活动 数据 和 传感器 数据 )， 故 实际 上 会 难以 修复 。 值 缺 
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失 和 异常 也 很 常见 ， 且 处 理 方式 可 与 处 理 非 规整 信息 类 似 。 总 的 来 说 ， 大 致 的 处 理 方法 如 下 。 


口 过 滤 掉 或 删除 非 规整 或 有 值 缺 失 的 数据 : 这 通常 是 必须 的 ， 但 的 确 会 损失 这 些 数据 里 那 

些 好 的 信息 。 

口 填充 非 规整 或 缺失 的 数据 : 可 以 根据 其 他 的 数据 来 填充 非 规整 或 缺失 的 数据 。 方 法 包括 
用 零 值 、 全 局 期 望 或 中 值 来 填充 ， 或 是 根据 相 邻 或 类 似 的 数据 点 来 做 插值 ( 通常 针对 时 
序数 据 ) 等 。 选 择 正确 的 方式 并 不 容易 ， 它 会 因数 据 、 应 用 场景 和 个 人 经 验 而 不 同 。 

口 对 异常 值 做 鲁 棒 处 理 : 异常 值 的 主要 问题 在 于 即使 它们 是 极 值 也 不 一 定 就 是 错 的 。 到 底 

是 对 是 错 通常 很 难 分 辨 。 异 常 值 可 被 移 除 或 是 填充 ， 但 的 确 存 在 某 些 统计 技术 ( 如 重 棱 
回归 ) 可 用 于 处 理 异 常 值 或 是 极 值 。 

口 对 可 能 的 异常 值 进 行 转换 : 男 一 种 处 理 异 常 值 或 极 值 的 方法 是 进行 转换 。 对 那些 可 能 存 

在 异常 值 或 值 域 覆 盖 过 大 的 特征 ， 利 用 如 对 数 或 高 斯 核对 其 转换 。 这 类 转换 有 助 于 降低 

变量 存在 的 值 跳跃 的 影响 ， 并 将 非 线性 关系 变 为 线性 的 。 


非 规整 数据 和 缺失 数据 的 填充 


前 面 已 经 举 过 过 滤 非 规整 数据 的 例子 。 顺 着 上 述 代 码 , 下 面 的 代码 对 发 行 日 期 有 问题 的 数据 
采取 了 填充 策略 ， 即 用 发 行 日 期 的 中 位 数 来 填充 问题 数据 。 


years_pre_processed = movie fields.map(lambda fields: fields[2]) .map (lambda x: 
convert_year (x)) .collect () 
years_pre_processed array = np.array (years_pre_processed) 


在 选取 所 有 的 发 行 日 期 后 ， 这 里 首先 计算 发 行 年 份 的 平均 数 和 中 位 数 。 选 取 的 数据 不 包含 
非 规整 数据 。 然 后 用 numpy 的 函数 来 找 出 year_pre_processeq_array 中 的 非 规整 数据 点 的 序 
号 (之 前 我 们 给 该 数据 点 分 配 了 1900 的 值 )。 最 后 通过 该 序号 来 将 中 位 数 作为 非 规整 数据 的 发 
行 年 份 : 


mean year = np.meanl(years_pre_processed array [years_pre_processed_array!=1900]) 
median year = np.medianl(years_pre_ processed array [years_pre_ processeqd array!=1900]) 
index_bad_ data = np.where(years_pre processed array==1900)[0][0] 
years_pre_processed array[index_ bad datal] = median year 

print "Mean year of release: %d" % mean year 

print "Median year of release: %d" %$ median year 

print "Index of '1900' after assigning median: %s" % np.wherel(years_pre_ processed_ 
array == 1900) [0] 


其 输出 应 如 下 : 


Mean year of release: 1989 
Median year of release: 1995 
Index of '1900' after assigning median: [] 


这 里 同时 求 出 了 发 行 年 份 的 平均 值 和 中 位 值 。 从 输出 也 可 看 到 ,发行 年 份 分 布 的 偏向 使 得 其 
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中 位 值 很 高 。 特 定 情况 下 通常 不 容易 确定 选取 什么 样 的 值 来 做 填充 才 够 精确 。 但 在 本 例 中 ， 从 
该 偏向 来 看 使 用 中 位 值 来 填充 的 确 可 行 。 


严格 来 说 , 上 面 示例 代码 的 可 扩展 性 并 不 很 高 ,因为 它 要 把 数据 都 返回 给 驱 

>》 动 程序 。 平 均值 的 计算 可 通过 Spark 下 数值 型 RDD 的 mean 函 数 来 实现 ， 但 目前 并 

QQ 没 相应 的 中 位 数 函 数 。 我 们 可 以 自己 编写 这 个 函数 来 求 中 位 数 , 又 或 是 用 sample 
函数 ( 后 面 几 章 会 更 多 看 到 ) 计算 样本 的 中 位 数 。 


3.4 从 数据 中 提取 有 用 特征 
在 完成 对 数据 的 初步 探索 、 处 理 和 清理 后 ， 便 可 从 中 提取 可 供 机 器 学 习 模型 训练 用 的 特征 。 


特征 〈feature ) 指 那些 用 于 模型 训练 的 变量 。 每 一 行 数据 包含 可 供 提取 到 训练 样本 中 的 各 种 
信息 。 从 根本 上 说 ， 几 乎 所 有 机 顺 学 习 模型 都 是 与 用 向 量 表示 的 数值 特征 打交道 ; 因此, 我 们 需 
要 将 原始 数据 转换 为 数值 。 


特征 可 以 概括 地 分 为 如 下 几 种 。 


口 数值 特征 (numerical feature) : 这 些 特征 通常 为 实数 或 整数 , 比如 之 前 例子 中 提 到 的 年 龄 。 
口 类 别 特征 〈categorical feature): 它们 的 取 值 只 能 是 可 能 状态 集合 中 的 某 一 种 。 我 们 数据 
集中 的 用 户 性 别 、 职 业 或 电影 类 别 便 是 这 类 。 

口 文本 特征 〈text feature): 它们 派生 自 数据 中 的 文本 内 容 ， 比 如 电影 名 、 描 述 或 是 评论 。 
口 其 他 特征 : 大 部 分 其 他 特征 都 最 终 表 示 为 数值 。 比 如 图 像 、 视 频 和 音频 可 被 表示 为 数值 
数据 的 集合 。 地 理 位 置 则 可 由 经 纬度 或 地 理 散 列 ( geohash ) 表示 。 


这 里 我 们 将 谈 到 数值 、 类 别 以 及 文本 类 的 特征 。 


3.4.1 数值 特征 

原始 的 数值 和 一 个 数值 特征 之 间 的 区 别 是 什么 ”实际 上 ， 任 何 数值 数据 都 能 作为 输入 变量 。 
但 是 , 机 器 学 习 模 型 中 所 学 习 的 是 各 个 特征 所 对 应 的 向 量 的 权 值 。 这 些 权 值 在 特征 值 到 输出 或 是 
目标 变量 ( 指 在 监督 学 习 模 型 中 ) 的 映射 过 程 中 扮演 重要 角色 。 

由 此 我 们 会 想 使 用 那些 合理 的 特征 ， 让 模型 能 从 这 些 特征 学 到 特征 值 和 目标 变量 之 间 的 关 
系 。 比 如 年 龄 就 是 一 个 合理 的 特征 。 年 龄 的 增加 和 某 项 支出 之 间 可 能 就 存在 直接 关系 。 类 似 地 ， 
高 度 也 是 一 个 可 直接 使 用 的 数值 特征 。 

当 数 值 特 征 仍 处 于 原始 形式 时 ， 其 可 用 性 相对 较 低 ， 但 可 以 转化 为 更 有 用 的 表示 形式 。 位 置 
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信息 便 是 如 此 。 者 使 用 原始 位 置信 息 〈 比如 用 经 纬度 表示 的 )， 我 们 的 模型 可 能 学 习 不 到 该 信息 
和 某 个 输出 之 间 的 有 用 关系 ,这 就 使 得 该 信息 的 可 用 性 不 高 ,除非 数据 点 的 确 很 密集 。 然 而 若 对 
位 置 进行 聚合 或 挑选 后 〈( 比如 聚焦 为 一 个 城市 或 国家 )， 便 容易 和 特定 输出 之 间 存 在 某 种 关联 了 。 


3.4.2 ”类 别 特征 


当 类 别 特征 仍 为 原始 形式 时 , 其 取 值 来 自 所 有 可 能 取 值 所 构成 的 集合 而 不 是 一 个 数字 , 故 不 
能 作为 输入 。 如 之 前 的 例子 中 的 用 户 职 业 便 是 一 个 类 别 特征 变量 , 其 可 能 取 值 有 学 生 、 程 序 员 等 。 


这 样 的 类 别 特征 也 称 作 名 义 (nominal ) 变量 ， 即 其 各 个 可 能 取 值 之 间 没 有 顺序 关系 。 相 反 ， 
那些 存在 顺序 关系 的 ( 比如 之 前 提 到 的 评级 ， 从 定义 上 说 评级 5 会 高 于 或 是 好 于 评级 1 ) 则 被 称 为 
有 序 (ordinal ) 变量 。 


将 类 别 特征 表示 为 数字 形式 ， 常 可 借助 上 之 1 ( 1-of-k ) 方法 进行 。 将 名 义 变量 表示 为 可 用 于 
机 器 学 习 任务 的 形式 , 会 需要 借助 如 之 1 编码 这 样 的 方法 。 有 序 变量 的 原始 值 可 能 就 能 直接 使 用 ， 
但 也 常会 经 过 和 名 义 变量 一 样 的 编码 处 理 。 


假设 变量 可 取 的 值 有 k 个 。 如 果 对 这 些 值 用 1 到 # 编 序 ， 则 可 以 用 长 度 为 的 二 元 向 量 来 表示 一 
个 变量 的 取 值 。 在 这 个 向 量 里 ， 该 取 值 对 应 的 序号 所 在 的 元 素 为 1， 其 他 元 素 都 为 0。 


比如 ， 我 们 可 以 取 回 occupation 的 所 有 可 能 取 值 : 


all_occupations = user_fields.map(lambda fields: fields[3]). distinct().collect() 
all_occupations.sort() 


然后 可 以 依次 对 各 可 能 的 职业 分 配 序号 (注意 , 为 与 Python、Scala 以 及 Java 中 数组 编 序 相同 ， 
这 里 也 从 0 开始 编号 ): 
idx 三 0 
all_occupations_dict = {} 
for o in all_occupations: 
all OCCUpations. dre ,Ld 
idx +=1 
# 看 一 下 “k 之 1” 编 码 会 对 新 的 例子 分 配 什么 值 
print "Encoding of 'doctor': %d" % all_occupations_dict['doctor'] 
print "Encoding of 'programmer': %d" % all_occupations_dict['programmer'] 


其 输出 如 下 : 


Encoding of 'doctor': 2 
Encoding of 'programmer': 14 


最 后 来 编码 programmer 的 取 值 。 首 先 需 创 建 一 个 长 度 和 可 能 的 职业 数 日 相同 (本 例 中 为 5 ) 
的 numpy 数 组 ， 其 各 元 素 值 为 0。 这 可 通过 numpy 的 zeros 函 数 实现 。 


之 后 将 提取 单词 programmer 的 序号 ， 并 将 数组 中 对 应 该 序号 的 那个 元 素 值 赋 为 1: 
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K = len(all_occupations_dict) 

binary_x = np.zeros (K) 

k_programmer = all_occupations_ dict['programmer'] 
binary_x[k_programmer] = 1 

print "Binary feature vector: %s" % binary_ x 
print "Length of binary vector: %d" %$ K 


对 应 的 输出 为 : 


Binary feature Vector: [ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 
0 ,03 05505 Qs: 0] 
Length of binary vector: 21 


3.4.3 ”派生 特征 


上 面 曾 提 到 ,从 现 有 的 一 个 或 多 个 变量 派生 出 新 的 特征 常常 是 有 帮助 的 。 理 想 情况 下 , 派生 
出 的 特征 能 比 原始 属性 带 来 更 多 信息 。 


比如 , 可 以 分 别 计 算 各 用 户 已 有 的 电影 评级 的 平均 数 。 这 将 能 给 模型 加 入 针对 不 同 用 户 的 个 
性 化 特征 (事实 上 ， 这 常用 于 推荐 系统 )。 在 前 文中 我 们 也 从 原始 的 评级 数据 里 创建 了 新 的 特征 
以 学 习 出 更 好 的 模型 。 

从 原始 数据 派生 特征 的 例子 包括 计算 平均 值 、 中 位 值 、 方 差 、 和 、 差 、 最 大 值 或 最 小 值 以 及 
计数 。 在 先前 内 容 中 ， 我 们 也 看 到 是 如 何 从 电影 的 发 行 年 份 和 当前 年 份 派生 了 新 的 movie age 
特征 的 。 这 类 转换 背后 的 想法 常常 是 对 数值 数据 进行 某 种 概括 ， 并 期 望 它 能 让 模型 学 习 更 容易 。 

数值 特征 到 类 别 特征 的 转换 也 很 常见 ， 比 如 划分 为 区 间 特 征 。 进 行 这 类 转换 的 变量 常见 的 有 
年 龄 、 地 理 位 置 和 时 间 。 

将 时 间 戳 转 为 类 别 特征 

下 面 以 对 评级 时 间 的 转换 为 例 , 说 明 如 何 将 数值 数据 装 换 为 类 别 特征 。 该 时 间 的 格式 为 Unix 
的 时 间 截 。 我 们 可 以 用 Python 的 aatetime 模 块 从 中 提取 出 日 期 、 时 间 以 及 点 钟 (hour ) 信息 。 
其 结果 将 是 由 各 评级 对 应 的 点 钟 数 所 构成 的 RDD。 

需要 定义 一 个 函数 将 评级 时 间 截 提取 为 aatetime 的 格式 : 


def extract_datetime (ts): 
import datetime 
return datetime.datetime.fromtimestamp (ts) 


下 面 会 再 次 用 到 之 前 例子 中 求 出 的 rating_qdata RDD。 
我 们 首先 使 用 map 将 时 间 戳 属性 转换 为 Python int 类 型 。 然 后 通过 extract_dqatetime 国 数 
将 各 时 间 戳 转 为 aatetime 类 型 的 对 象 ， 进 而 提取 出 其 点 钟 数 。 


timestamps = rating_ data.map(lambda fields: int (fields[3])) 
hour_of_day = timestamps.map (lambda ts: extract_ datetime (ts) .hour) 
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hour_of_day.take(5) 

若 取 出 结果 RDD 的 前 5 条 记录 ， 可 看 到 如 下 输出 : 

L173. "21 93) Ti 7] 

这 就 完成 了 从 原始 的 时 间 数 据 到 表示 评级 发 生 的 点 钟 的 类 别 特征 的 转换 。 

现在 ,假设 我 们 觉得 这 样 的 表示 过 于 粗糙 ， 想 更 为 精确 。 我 们 可 以 将 点 钟 数 划分 到 一 天 中 的 
不 同时 段 。 


建 一 个 以 点 钟 数 为 输入 的 函数 来 返回 相应 的 时 间 段 : 


def assign todq(hr) : 
times_of day = { 
morning' : range(7, 12), 
'Junch' : range(12, 14), 
'afternoon' : range(14, 18), 
'evening' : range(18, 23), 
'night' : range(23, 7) 
} 
for k, Vv in times_of_ day.iteritems(): 
TE a 妆 : 
return k 


现在 对 hour_of_day RDD 里 的 各 次 评级 的 点 钟 数 调用 assign_tod 也 数 : 


time_of_day = hour_of_day.map(lambda hr: assign tod (hr)) 
time_of_day.take(5) 


如 果 我 们 选择 查看 该 新 RDD 里 的 前 5$ 条 记录 ， 会 输出 如 下 已 转换 的 值 : 

['afternoon', 'evening', 'morning', 'morning', 'morning'] 

我 们 已 将 时 间 戳 变量 转 为 点 钟 数 ， 再 接着 转 为 了 时 间 段 ， 从 而 得 到 了 一 个 类 别 特征 。 我 们 可 
以 借助 之 前 提 到 的 之 1 编码 方法 来 生成 其 相应 的 二 元 特征 向 量 。 


3.4.4 文本 特征 


从 某 种 意义 上 说 , 文本 特征 也 是 一 种 类 别 特征 或 派生 特征 。 下 面 以 电影 的 描述 ( 我们 的 数据 
集中 不 含 该 数据 ) 来 举例 。 即 便 作 为 类 别 数据 ， 其 原始 的 文本 也 不 能 直接 使 用 。 因 为 假设 每 个 单 
词 都 是 一 种 可 能 的 取 值 , 那 单词 之 间 可 能 出 现 的 组 合 有 几乎 无 限 种 。 这 时 模型 几乎 看 不 到 有 相同 
的 特征 出 现 两 次 ,学 习 的 效果 也 就 不 理想 。 从 中 可 以 看 出 , 我们 会 希望 将 原始 的 文本 转换 为 一 种 
更 便于 机 顺 学 习 的 形式 。 

文本 的 处 理 方式 有 很 多 种 。 自 然 语言 处 理 便 是 专注 于 文本 内 容 的 处 理 、 表 示 和 建 模 的 一 个 领 
域 。 关于 文本 处 理 的 完整 内 容 并 不 在 本 书 的 讨论 范围 内 , 但 我 们 会 介绍 一 种 简单 且 标 准 化 的 文本 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


比如 可 以 说 7 点 到 12 点 是 上 午 ，12 点 到 14 点 是 中 午 ， 以 此 类 推 。 要 生成 这 些 时 间 段 ， 可 以 创 国 


52 第 3 章 Spark 上 数据 的 获取 、 处 理 与 准备 


特征 提取 方法 。 该 方法 被 称 为 词 仅 (bag-of-word ) 表示 法 。 
词 袋 法 将 一 段 文本 视 为 由 其 中 的 文本 或 数字 组 成 的 集合 ， 其 处 理 过 程 如 下 。 


口 分 词 〈tokenization): 首先 会 应 用 某 些 分 词 方 法 来 将 文本 分 隔 为 一 个 由 词 (一 般 如 单词 、 
数字 等 ) 组 成 的 集合 。 可 用 的 方法 如 空白 分 隔 法 。 这 种 方法 在 空白 处 对 文本 分 隔 并 可 能 
还 删除 其 他 如 标点 符号 和 其 他 非 字母 或 数字 字符 。 


口 删除 停 用 词 〈stop words removal) : 之 后 , 它 通常 会 删除 常见 的 单词 ， 比 如 the、and 和 but 
(这些 词 被 称 作 停 用 词 )。 
口 提取 词 干 (stemming): 下 一 步 则 是 词 干 的 提取 。 这 是 指 将 各 个 词 简 化 为 其 基本 的 形式 或 


者 干 词 。 常见 的 例子 如 复数 变 为 单数 ( 比如 dogs 变 为 dog 等 )。 提取 的 方法 有 很 多 种 , 文本 


处 理 算法 库 中 常 


常会 包括 多 种 词 干 提取 方法 。 


口 向 量化 〈vectorization ) : 最 后 一 步 就 是 用 向 量 来 表示 处 理 好 的 词 。 二 元 向 量 可 能 是 最 为 
简单 的 表示 方式 。 它 用 1 和 0 来 分 别 表示 是 否 存 在 某 个 词 。 从 根本 上 说 ， 这 与 之 前 提 到 的 


之 1 编码 相同 。 与 [之 1 相同 ， 它 需要 


个 词 的 字典 来 实现 词 到 索引 序号 的 映射 。 随 着 遇 到 


的 词 增多 ， 各 种 词 可 能 达 数 百 万 。 由 此 ， 使 用 稀 朴 矩阵 来 表示 就 很 关键 。 这 种 表示 只 记 
录 某 个 词 是 否 出 现 过 ， 从 而 节省 内 存 和 磁盘 空间 ， 以 及 计算 时 间 。 


SS 在 第 9 章 我 们 会 提 到 更 为 复杂 的 文本 处 理 和 特征 提取 方法 ， 包 括 词 权 重 赋值 
>- 法 。 这 些 方法 远 比 之 前 看 到 的 二 元 编码 复杂 。 

提取 简单 的 文本 特征 

我 们 以 数据 集中 的 电影 标题 为 例 ， 来 示范 如 何 提取 文本 特征 为 二 元 矩阵。 


首先 需 创建 一 个 函数 来 过 滤 掉 电影 标题 中 可 能 存在 的 发 行 年 月 。 如 果 标 题 中 存在 发 行 年 月 ， 


就 只 保留 电影 的 名 称 。 


我 们 使 用 Python 的 正则 表达 式 模 块 rze 来 寻找 标题 里 位 于 括号 之 间 的 年 份 。 如 果 找 到 与 表达 式 
匹配 的 字段 ,我们 将 提取 标题 中 匹配 起 始 位 置 ( 即 左 括号 所 在 的 位 置 ) 之 前 的 部 分 。 下 面 代码 中 


的 raw[ :grps.start() 


def extract_title 
import re 


# 该 表达 式 找寻 括号 


] 实 现 了 该 功能 : 
(raw): 


之 间 的 非 单词 (数字 ) 


grps = re.search("\((\w+)\)", raw) 
Lf ere 
# 只 选取 标题 部 分 ， 并 删除 末尾 的 空白 字符 
return raw[:grps.start()] .strip() 
else: 


return raw 


之 后 从 movie_fields RDD 里 提取 出 原始 的 电影 标题 : 
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raw_titles = movie_ fi 


elds.map(lambda fields: fields[1]) 


用 前 5 个 原始 标题 来 测试 一 下 extract_title 函 数 : 


for raw_ title in raw_ 
print extract_title 


citles.take(5) : 
(raw_title) 


要 验证 该 函数 功能 ， 可 查看 结 


Toy Story 

GoldenEye 

Four Rooms 
Get Shorty 
Copycat 


下 面 对 原 始 标 题 调用 该 函数 , 并 调用 一 个 分 词法 来 将 处 理 后 的 标题 转 为 词 。 这 里 会 使 用 之 前 


提 到 的 简单 空 日 分 词法 : 


movie titles = raw_ ti 


tles.map(lambda m: extract_title(m)) 


# 下 面 用 简单 空白 分 词法 将 标题 分 词 为 词 


title terms = movie 七 
print title terms.tak 


itles.map(lambda 七 : t.split(" ")) 
e(5) 


该 方法 将 给 出 的 结果 如 下 : 


[[u'Toy', u'Story'], 
[u'Copycat']] 


[u'GoldenEye'], [u'Four', u'Rooms'], [u'Get', u'Shorty'], 


从 中 可 以 看 到 ， 各 标题 都 以 空白 进行 了 分 隔 ， 从 而 使 得 各 个 单词 成 为 一 个 词 。 


这 里 我 们 没有 谈 到 一 些 处理 的 细节 , 比如 将 文本 转 为 小 写 、 删 除 如 标点 符号 
了 和 特殊 字符 之 类 的 非 单词 或 非 数 字 字符 、 删 除 连接 词 和 词 干 提 取 。 但 这 些 步 骤 对 
QQ 现实 中 的 应 用 很 重要 。 第 9 章 将 提供 更 多 这 些 方面 的 内 容 。 

上 述 处 理 步 又 ( 不 含 词 干 提 取 ) 很 容易 用 字符 串 的 函数 、 正 则 表达 式 和 Spark 


API 来 实现 。 自 


己 试 一 下 1 


我 们 需要 创建 一 个 词 字典 , 来 实现 词 到 一 个 整数 序号 的 映射 ,以 便 能 为 每 一 个 词 分 配 一 个 对 


应 到 向 量 元 素 的 序号 。 


这 里 首先 使 用 Spark 的 flatMap 函 数 (下 面 代码 中 的 高 亮 部 分 ) 来 扩展 title_terms RDD 中 每 


个 记录 的 字符 串 列 表 , 以 得 到 


一 个 新 的 字符 串 RDD。 该 RDD 的 每 个 记录 是 一 个 名 为 all_terms 的 词 。 


之 后 取 回 所 有 不 同 的 词 ， 并 给 他 们 分 配 序号 。 其 做 法 和 之 前 对 职业 进行 /之 1 编码 完全 相同 : 


# 下 面 取 回 所 有 可 能 的 词 ， 以 便 构建 一 个 词 到 序号 的 映射 字典 
all_terms = title terms.flatMap (lambda x: x) .distinct().collect() 
# 创建 一 个 新 的 字典 来 保存 词 ， 并 分 配 K 之 1 序号 


工交 =-0 
all_terms_dict = {} 
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for term in all_ terms : 
all_terms_dict[term] = idx 
idx +=1 


我 们 可 以 打印 出 不 同 的 词 的 数目 有 多 少 ， 并 用 一 些 词 来 测试 下 映射 的 情况 : 


print "Total number of terms: %d" % len(all terms_dict) 
print "Index of term 'Dead': %d" %$ all_terms_ dict['Dead'] 
print "Index of term 'Rooms': %d" %$ all_ terms_ dict['Rooms'] 


上 述 代码 的 输出 如 下 : 


Total number of terms: 2645 
Index of term 'Dead': 147 
Index of term 'Rooms': 1963 


也 可 以 通过 Spark 的 zipwithIndex 函 数 来 更 高 效 得 到 相同 结果 。 该 聘 数 以 各 值 的 RDD 为 输 
和 人 入， 对 值 进行 合并 以 生成 一 个 新 的 键 值 对 RDD。 对 新 的 RDD， 其 主键 为 词 ， 值 为 词 在 词 字 典 中 
的 序号 。 我 们 会 用 到 collectaAsMap 将 该 RDD 以 Python 的 aict 函 数 形 式 返 回 到 驱动 程序 。 


all_terms_dict2 = title terms.flatMap (lambda x: x) .distinct(). 
zipWithIndex() .collectAsMap () 

print "Index of term 'Dead': %d" % all_ terms_ dict2['Dead'] 
print "Index of term 'Rooms': %d" % all_terms dict2['Rooms'] 


其 输出 为 : 


Index of term 'Dead': 147 
Index of term 'Rooms': 1963 


最 后 一 步 是 创建 一 个 函数 。 该 函数 将 一 个 词 集合 转换 为 一 个 稀 琉 向 量 的 表示 。 具 体 实现 时 ， 
我 们 会 创建 一 个 空白 稀 玻 矩阵 。 该 矩阵 只 有 一 行列 数 为 字典 的 总 词 数 。 之 后 我 们 会 逐一 检查 输 
入 集合 中 的 每 一 个 词 ， 看 它 是 否 在 词 字典 中 。 如 果 在 , 那 就 给 矩阵 里 相应 序数 位 置 的 向 量 赋值 1: 


# 该 函数 输入 一 个 词 列 表 ， 并 用 K 之 1 编码 类 似 的 方式 将 其 编码 为 一 个 scipy 稀 下 向 量 
def create_Vvector (terms，term_ dict): 
from scipy import sparse as sp 
num terms = lenl(term dict) 
xX = sp.csc_ matrix((1, num terms)) 
for t in terms: 
if t in term dict: 
idx = term dict[t] 
区 [二 宇 Q 交 | 二 江 
return x 


之 后 ， 对 提取 出 的 各 个 词 的 RDD 的 各 记录 都 应 用 该 函数 。 


all_terms_bcast = sc.broadcast (all_ terms_dict) 

term vectors = title terms.map(lambda terms: create vector(terms, 
all_terms_bcast .value)) 

term vecors.take(5) 


现在 可 得 到 新 稀 朴 向 量 RDD 的 前 几 条 记录 如 下 : 
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[<1x2645 sparse matrix of type '<type '‘'numpy.float64'>' 

with 2 stored elements in Compressed Sparse Column format>, 
<1x2645 sparse matrix of type '<type 'numpy.float64'>' 

with 1 stored elements in Compressed Sparse Column format>, 
<1x2645 sparse matrix of type '<type 'numpy.float64'>' 

with 2 stored elements in Compressed Sparse Column format>, 
<1x2645 sparse matrix of type '<type 'numpy.float64'>' 

with 2 stored elements in Compressed Sparse Column format>, 
<1x2645 sparse matrix of type '<type 'numpy.float64'>' 

with 1 stored elements in Compressed Sparse Column format>] 


现在 每 一 个 电影 标题 都 被 转换 为 一 个 稀 玻 向 量 。 可 以 看 到 那些 提取 出 了 2 个 词 的 标题 所 对 应 
的 向 量 里 也 是 2 个 非 零 元 素 ， 而 只 提取 了 1 个 词 的 则 只 对 应 到 了 1 个 非 零 元 素 ， 等 等 。 


>» 注意 上 面 示例 代码 中 用 Spark 的 broadcast 函 数 来 创建 了 一 个 包含 词 字 典 的 
ea 广播 变量 。 现 实 场景 中 该 字典 可 能 会 极 大 ， 故 适合 使 用 广播 变量 。 


3.4.5 ”正则 化 特征 


在 将 特征 提取 为 向 量 形式 后 ， 一 种 常见 的 预 处 理 方式 是 将 数值 数据 正则 化 (normalization )。 
其 背后 的 思想 是 将 各 个 数值 特征 进行 转换 ， 以 将 它们 的 值 域 规范 到 一 个 标准 区 间 内 。 正则 化 的 方 
法 有 如 下 几 种 。 


口 正则 化 特征 : 这 实际 上 是 对 数据 集中 的 单个 特征 进行 转换 。 比 如 减 去 平均 值 ( 特征 对 齐 ) 
或 是 进行 标准 的 正则 转换 ( 以 使 得 该 特征 的 平均 值 和 标准 差分 别 为 0 和 1 )。 

口 正则 化 特征 向 量 : 这 通常 是 对 数据 中 的 某 一 行 的 所 有 特征 进行 转换 ， 以 让 转换 后 的 特征 
向 量 的 长 度 标准 化 。 也 就 是 缩放 向 量 中 的 各 个 特征 以 使 得 向 量 的 范 数 为 1 ( 常 指 一 阶 或 二 
阶 范 数 )。 


下 面 将 用 第 二 种 情况 举例 说 明 。 向 量 正则 化 可 通过 numpy 的 norm 函 数 来 实现 。 具 体 来 说 , 先 
计算 一 个 随机 向 量 的 二 阶 范 数 ， 然 后 让 向 量 中 的 每 一 个 元 素 都 除 该 范 数 ， 从 而 得 到 正则 化 后 的 
向 量 : 

np.random.seed (42) 

X = np.random.randn(10) 


norm 区 2 = nb. linalg.norml(x) 
normalized x = x / norm x 2 


print "x:\n%$s" % x 


Prirnt "2-Norm Of x: $2.4f™ $$ nornm x 2 
print "Normalized x:\n%Ss" % normalized x 
print "2-Norm of normalizeqd x: %2.4f" % 


np.linalg.norm(normalized_ x) 


其 输出 应 该 如 下 ( 注意 上 面 的 代码 中 将 随机 种 子 的 值 设 为 42， 以 保证 每 次 运行 的 结果 相同 ): 
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x: [ 0.49671415 -0.1382643 0.64768854 1.52302986 -0.23415337 -0.23413696 
1.57921282 0.76743473 -0.46947439 0.54256004] 


2-Norm of x: 2.5908 
Normalized x: [ 0.19172213 -0.05336737 0.24999534 0.58786029 -0.09037871 -0.09037237 


0.60954584 0.29621508 -0.1812081 0.20941776] 
2-Norm of normalized x: 1.0000 


用 MLlib 正 则 化 特征 


Spark 在 其 MLlib 机 器 学 习 库 中 内 置 了 一 些 函数 用 于 特征 的 缩放 和 标准 化 。 它 们 包括 供 标准 正 
态 变换 的 standqardqscaler， 以 及 提供 与 上 述 相 同 的 特征 向 量 正则 化 的 Normalizer。 


在 后 面 几 童 中， 我 们 会 探索 这 些 函 数 的 使 用 方法 。 但 现在 ,我 们 只 简单 比较 一 下 MLlib 的 
Normalizetr 与 我 们 自己 函数 的 结果 
from pyspark.mllib.feature import Normalizer 


normalizer = Normalizer() 
Vector = sc.parallelize( [x]) 


在 导入 所 需 的 类 后 ， 会 要 初始 化 Normalizer (其 默认 使 用 与 之 前 相同 的 二 阶 范 数 )。 注 意 
用 Spark 时 ， 大 部 分 情况 下 Normalizer 所 需 的 输入 为 一 个 RDD ( 它 包含 numpy 数 值 或 MLlib 向 
量 )。 作 为 举例 ， 我 们 会 从 x 向 量 创建 一 个 单元 素 的 RDD。 


之 后 将 会 对 我 们 的 RDD 调 用 Normalizer 的 transform 函 数 。 由 于 该 RDD 只 含有 一 个 向 量 ， 
可 通过 first 函 数 来 返回 回 量 到 驱动 程序 。 接 着 调用 oaArray 图 数 来 将 该 向 量 转换 为 numpy 数 组 : 


normalized x mllib = normalizer.transform(vector) .first().toArray() 


最 后 来 看 一 下 之 前 打印 过 的 那些 值 ， 并 做 个 比较 : 


Drint "ZK: (nSs" “SR 

print "2-Norm of x: %2.4f" 多 norm x 2 

print "Normalized x MLlib:\n%$s" % normalized x mllib 
print "2-Norm of normalizeqd x_ ml1ib: %2.4f" % np.linalg. 
norm(normalized x mllipb) 


其 结果 会 和 之 前 用 我 们 自己 的 代码 时 的 完全 相同 。 但 不 管 怎样 ， 相 比 自己 编写 的 函数 ,使 用 
MLlib 内 置 的 函数 无 疑 会 更 方便 和 高 效 ! 


3.4.6 ”用 软件 包 提取 特征 


虽然 上 面 已 经 提 到 了 不 少 特 征 提 取 的 方法 ,但 每 次 都 要 为 这 些 常 见 任务 编写 代码 并 不 轻松 。 
当然 ， 我 们 可 以 为 之 创建 可 重用 的 代码 库 。 但 更 好 的 是 可 以 依赖 现 有 的 工具 和 软件 包 。 


Spark 支 持 Scala 、Java 和 Python 的 绑 定 。 我 们 可 以 通过 这 些 语言 所 开发 的 软件 包 , 借助 其 中 完 
善 的 工具 箱 来 实现 特征 的 处 理 和 提取 ， 以 及 向 量 表示 。 特 征 提取 可 借助 的 软件 包 有 scikit-learn、 
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gensim 、scikit-image 、matplotlib、Python 的 NLTK、Java 编 写 的 OpenNLP 以 及 用 Scala 编 写 的 Breeze 
和 Chalk。 实 际 上 ,Breeze 自 Spark 1.0 开 始 就 成 为 Spark 的 一 部 分 了 。 后 几 章 也 会 介绍 如 何 使 用 Breeze 
的 线性 代数 功能 。 


3.5 小结 


本 章 ， 我 们 看 到 了 如 何 寻找 可 用 于 各 种 机 器 学 习 模 型 的 常见 公开 数据 集 。 学 到 了 如 何 导 入 、 
处 理 和 清理 数据 ， 以 及 如 何 将 原始 数据 转 为 特征 向 量 以 供 模型 训练 的 常见 方法 。 


下 一 章 ， 我 们 将 介绍 推荐 系统 的 基本 概念 、 创 建 推荐 模型 的 方法 、 如 何 使 用 模型 来 做 推荐 ， 
以 及 如 何 评价 模型 。 
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前 几 章 介绍 了 数据 处 理 和 特征 提取 的 一 些 基 本 概念 。 从 本 章 开 始 ， 我 们 将 从 推荐 引擎 开始 ， 
对 各 机 需 学 习 模 型 进行 详细 探讨 。 

推荐 引擎 或 许 是 最 为 大 众 所 知 的 一 种 机 器 学 习 模 型 。 人 们 或 许 并 不 知道 它 确切 是 什么 , 但 在 
使 用 Amazon 、Netflix 、YouTube 、Twitter 、LinkedIn 和 Facebook 这 些 流行 站 点 的 时 候 ， 可 能 已 经 
接触 过 了 。 推 荐 是 这 些 网 站 背后 的 核心 组 件 之 一 ， 有 时 还 是 一 个 重要 的 收入 来 源 。 

推荐 引擎 背后 的 想法 是 预测 人 们 可 能 喜好 的 物品 并 通过 探寻 物品 之 间 的 联系 来 辅助 这 个 过 


们 呈现 的 相关 内 容 并 不 一 定 就 是 人 们 所 搜索 的 ， 其 返回 的 某 些 结果 甚至 人 们 都 没 听 说 过 。 


程 。 从 这 点 上 来 说 , 它 和 同样 也 做 预测 的 搜索 引擎 互补 。 但 与 搜索 引擎 不 同 ， 推 荐 引擎 试图 向 人 


一 般 来 讲 ， 推 荐 引擎 试图 对 用 户 与 某 类 物品 之 间 的 联系 建 模 。 比 如 ， 第 2 章 MovieStream 的 案 


例 中 , 我 们 使 用 推荐 引擎 来 告诉 用 户 有 哪些 电影 他 们 可 能 会 喜欢 。 如 果 这 点 做 得 很 好 ， 就 能 吸引 


用 户 持续 使 用 我 们 的 服务 。 这 对 


双方 都 有 好 处 。 同 样 ， 如 果 能 准确 告诉 用 户 有 哪些 电影 与 某 一 上 


日 


己 


影 相似 ， 就 能 方便 用 户 在 站 点 上 找到 更 多 感 兴趣 的 信息 。 这 也 能 提升 用 户 的 体验 、 参 与 度 以 及 站 


点 内 容 对 用 户 的 吸引 力 。 


实际 上 ,推荐 引擎 的 应 用 并 不 限于 电影 、 书 籍 或 是 产品 。 本 章 内 容 同 样 适用 于 用 户 与 物品 关 
系 或 社交 网 络 中 用 户 与 用 户 之 间 的 关系 。 比 方 说 向 用 户 推荐 他 们 可 能 认识 或 关注 的 用 户 。 


推荐 引擎 很 适合 如 下 两 类 常见 场景 (两 者 可 兼 有 )。 


口 可 选项 众多 : 可 选 的 物品 越 多 ， 用 户 就 越 难 找 到 想 要 的 物品 。 如 果 用 户 知道 他 们 想 要 什 
么 ， 那 搜索 能 有 所 帮助 。 然 而 最 适合 的 物品 往往 并 不 为 用 户 所 事先 知道 。 这 时 ， 通 过 向 
用 户 推荐 相关 物品 ， 其 中 茶 些 可 能 用 户 事先 不 知道 ， 将 能 帮助 他 们 发 现 新 物品 。 

口 偏 个 人 喜好 : 当 人 们 主要 根据 个 人 喜好 来 选择 物品 时 ， 推 荐 引擎 能 利用 集体 智慧 ， 根 据 
其 他 有 类 似 喜 好 用 户 的 信息 来 帮助 他 们 发 现 所 需 物 品 。 


本 章 将 涉及 如 下 内 容 : 


D 介绍 推荐 引擎 的 类 型 ; 


口 用 用 户 偏好 数据 来 建立 一 个 推荐 模型 ; 
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口 使 用 上 述 模型 来 为 用 户 进行 推荐 和 求 指定 物品 的 类 似 物品 ( 即 相 关 物 品 ); 
口 应 用 标准 的 评估 指标 来 评估 该 模型 的 预测 能 力 。 


4.1 推荐 模型 的 分 类 

推荐 系统 的 研究 已 经 相当 广泛 , 也 存在 很 多 设计 方法 。 最 为 流行 的 两 种 方法 是 基于 内 容 的 过 
滤 和 协同 过 滤 。 另 外 ,排名 模型 等 近期 也 受到 不 少 关 注 。 实 践 中 的 方案 很 多 是 综合 性 的 ,它们 将 
多 种 方法 的 元 素 合并 到 一 个 模型 中 或 是 进行 组 合 。 


4.1.1 基于 内 容 的 过 滤 


基于 内 容 的 过 滤 利 用 物品 的 内 容 或 是 属性 信息 以 及 某 些 相似 度 定义 , 来 求 出 与 该 物品 类 似 的 
物品 。 这 些 属 性 值 通常 是 文本 内 容 ( 比如 标题 、 名 称 、 标 签 及 该 物品 的 其 他 元 数据 )。 对 多 媒体 
来 说 ， 可 能 还 涉及 从 音频 或 视频 中 提取 的 其 他 属性 。 

类 似 地 , 对 用 户 的 推荐 可 以 根据 用 户 的 属性 或 是 描述 得 出 , 之 后 再 通过 相同 的 相似 度 定义 来 
与 物品 属性 做 匹配 。 比 如 , 用 户 可 以 表示 为 他 所 接触 过 的 各 物品 属性 的 综合 。 该 表示 可 作为 该 用 
户 的 一 种 描述 。 之 后 可 以 用 它 来 与 物品 的 属性 进行 比较 以 找 出 符合 用 户 描述 的 物品 。 


4.1.2 ”协同 过 滤 


协同 过 滤 是 一 种 借助 众 包 智慧 的 途径 。 它 利 用 大 量 已 有 的 用 户 偏好 来 估计 用 户 对 其 未 接触 过 
的 物品 的 喜好 程度 。 其 内 在 思想 是 相似 度 的 定义 。 


在 基于 用 户 的 方法 的 中 , 如 果 两 个 用 户 表 现 出 相似 的 偏好 ( 即 对 相同 物品 的 偏好 大 体 相同 )， 
那 就 认为 他 们 的 兴趣 类 似 。 要 对 他 们 中 的 一 个 用 户 推荐 一 个 未 知 物品 , 便 可 选取 若干 与 其 类 似 的 
用 户 并 根据 他 们 的 喜好 计算 出 对 各 个 物品 的 综合 得 分 ， 再 以 得 分 来 推荐 物品 。 其 整体 的 逻辑 是 ， 
如 果 其 他 用 户 也 偏好 某 些 物品 ， 那 这 些 物 品 很 可 能 值得 推荐 。 


同样 也 可 以 借助 基于 物品 的 方法 来 做 推荐 。 这 种 方法 通常 根据 现 有 用 户 对 物品 的 偏好 或 是 评 
级 情况 ， 来 计算 物品 之 间 的 某 种 相似 度 。 这 时 ， 相 似 用 户 评级 相同 的 那些 物品 会 被 认为 更 相近 。 
一 旦 有 了 物品 之 间 的 相似 度 , 便 可 用 用 户 接触 过 的 物品 来 表示 这 个 用 户 , 然后 找 出 和 这 些 已 知 物 
品 相似 的 那些 物品 ,并 将 这 些 物 品 推荐 给 用 户 。 同 样 , 与 已 有 物品 相似 的 物品 被 用 来 生成 一 个 综 
合 得 分 ， 而 该 得 分 用 于 评估 未 知 物品 的 相似 度 。 

基于 用 户 或 物品 的 方法 的 得 分 取决 于 若干 用 户 或 是 物品 之 间 依 据 相 似 度 所 构成 的 集合 ( 即 邻 
居 )， 故 它们 也 常 被 称 为 最 近邻 模型 。 

最 后 , 也 存在 不 少 基于 模型 的 方法 是 对 “用 户 -物品 ”偏好 建 模 。 这 样 ,对 未 知 “ 用 户 -物品 ” 
组 合 上 应 用 该 模型 便 可 得 出 新 的 偏好 。 
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4.1.3 和 矩 阵 分 解 


Spark 推 荐 模型 库 当 前 只 包含 基于 和 矩阵 分 解 ( matrix factorization ) 的 实现 ， 由 此 我 们 也 将 重 
点 关注 这 类 模型 。 它 们 有 吸引 人 的 地 方 。 首 先 ， 这 些 模型 在 协同 过 滤 中 的 表现 十 分 出 色 。 而 在 
Netflix Prize 等 知名 比赛 中 的 表现 也 很 拔尖 。 


netflix.com/2012/04/netflix-recommendations-beyond-5-stars.html。 


| 关于 Netflix Prize 比 赛 中 表现 最 好 的 模型 的 更 多 信息 , 可 参见 : http://techblog. | 
A 


1. 显 式 矩 阵 分 解 


当 要 处 理 的 那些 数据 是 由 用 户 所 提供 的 自身 的 偏好 数据 , 这 些 数据 被 称 作 显 式 偏好 数据 。 这 
类 数据 包括 如 物品 评级 、 赞 、 喜 欢 等 用 户 对 物品 的 评价 。 

这 些 数据 可 以 转换 为 以 用 户 为 行 、 物 品 为 列 的 二 维 矩阵 。 和 矩阵 的 每 一 个 数据 表示 某 个 用 户 对 
特定 物品 的 偏好 。 大 部 分 情况 下 单个 用 户 只 会 和 少 部 分 物品 接触 , 所 以 该 矩阵 只 有 少 部 分 数据 非 
零 ( 即 该 矩阵 很 稀 玻 )。 


举 个 简单 的 例子 ， 假 设 我 们 有 如 下 用 户 对 电影 的 评级 数据 : 


Tom, Star Wars, 5 
Jane, Titanic, 4 
Bill, Batman, 3 
Jane, Star Wars, 2 
Bill, Titanic, 3 


它们 可 转 为 如 下 评级 矩阵 : 


《蝙蝠 侠 》 《星球 大 战 》《 泰 坦 尼 克 号 》 


图 4-1 一 个 简单 的 电影 评级 矩阵 
对 这 个 矩阵 建 模 ， 可 以 采用 和 抢 阵 分 解 〈 或 矩阵 补 全 ) 的 方式 。 具 体 就 是 找 出 两 个 低 维度 的 矩 
阵 ， 使 得 它们 的 乘积 是 原始 的 矩阵 。 因 此 这 也 是 一 种 降 维 技术 。 假 设 我 们 的 用 户 和 物品 数目 分 别 
是 UAT， 那 对 应 的 “用 户 - 物 品 ” 和 矩阵 的 维度 为 U x T， 类 似 图 4-2 所 示 : 
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图 4-2 ”一 个 稀 玻 的 评级 矩阵 


要 找到 和 “用 户 -物品 ”矩阵 近似 的 礁 〈 低 阶 ) 和 矩阵， 最终 要 求 出 如 下 两 个 矩阵 : 一 个 用 于 
表示 用 户 的 U x /维和 矩阵 ， 以 及 一 个 表征 物品 的 7 x 1j 维 矩阵 。 这 两 个 矩阵 也 称 作 因子 矩阵 。 它 们 
的 乘积 便 是 原始 评级 矩阵 的 一 个 近似 。 值 得 注意 的 是 ,原始 评级 矩阵 通常 很 稀 琉 ,但 因子 矩阵 却 
是 稠密 的 ， 如 图 4-3 所 示 : 


人 


图 4-3 ”用 户 因 子 和 矩阵 和 物品 因子 矩阵 
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这 类 模型 试图 发 现 对 应 “用 户 -物品 ”矩阵 内 在 行为 结构 的 隐 含 特征 ( 这 里 表示 为 因子 矩阵 )， 
所 以 也 把 它们 称 为 隐 特 征 模型 。 隐 含 特 征 或 因子 不 能 直接 解释 , 但 它 可 能 表示 了 某 些 含义 ， 比 如 
对 电影 的 茶 个 导演 、 种 类 、 风 格 或 某 些 演员 的 侦 好 。 

由 于 是 对 “用 户 - 物 品 ” 和 矩阵 直接 建 模 ， 用 这 些 模型 进行 预测 也 相对 直接 : 要 计算 给 定 用 户 
对 某 个 物品 的 预计 评级 ， 就 从 用 户 因子 矩阵 和 物品 因子 矩阵 分 别 选 取 相应 的 行 〈 用 户 因子 向 量 ) 
与 列 (物品 因子 向 量 )， 然 后 计算 两 者 的 点 积 即 可 。 


图 4-4 中 的 高 亮 部 分 为 因子 向 量 : 


人 


U 而 留 虑 内 图 计 图 人 


图 4-4 用 用 户 因子 矩阵 和 物品 因子 矩阵 计算 推荐 
而 对 于 物品 之 间 相 似 度 的 计算 ,可 以 用 最 近邻 模型 中 用 到 的 相似 度 衡量 方法 。 不同 的 是 , 这 
里 可 以 直接 利用 物品 因子 向 量 , 将 相似 度 计 算 转 换 为 对 两 物品 因子 向 量 之 间 相 似 度 的 计算 , 如 图 
4-5 所 示 : 
因子 分 解 类 模型 的 好 处 在 于 , 一 旦 建立 了 模型 ， 对 推荐 的 求解 便 相对 容易 。 但 也 有 浆 端 ， 即 
当 用 户 和 物品 的 数量 很 多 时 , 其 对 应 的 物品 或 是 用 户 的 因子 向 量 可 能 达到 数 以 百 万 计 。 这 将 在 存 
储 和 计算 能 力 上 带 来 挑战 。 另 一 个 好 处 是 ， 这 类 模型 的 表现 通常 都 很 出 色 。 


Oryx ( https://github.con/OryxProject/oryx ) 和 Prediction.io ( https://github.com/ 
\ PredictionIO/PredictionIO ) 等 项 目 专注 于 提供 大 规模 建 模 服务 ， 服 务 内 容 包括 基 
于 甜 阵 分 解 的 推荐 。 


因子 分 解 类 模型 也 存在 某 些 弱点 。 相 比 最 近邻 模型 , 这 类 模型 在 理解 和 可 解释 性 上 难度 都 有 
所 增加 。 另 外 ， 其 模型 训练 阶段 的 计算 量 也 很 大 。 
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(~ 
入 


图 4-5 ”用 物品 因子 矩阵 计算 相似 度 
2. 隐 式 矩阵 分 解 


上 面 针 对 的 是 评级 之 类 的 显 式 偏好 数据 , 但 能 收集 到 的 偏好 数据 里 也 会 包含 大 量 的 隐 式 反馈 
数据 。 在 这 类 数据 中 , 用 户 对 物品 的 偏好 不 会 直接 给 出 ， 而 是 隐 仿 在 用 户 与 物品 的 交互 之 中 。 二 
元 数据 ( 比如 用 户 是 否 观看 了 某 个 电影 或 是 否 购买 了 某 个 商品 ) 和 计数 数据 ( 比如 用 户 观 看 某 电 
影 的 次 数 ) 便 是 这 类 数据 。 


处 理 隐 式 数据 的 方法 相当 多 。MLlib 实 现 了 一 个 特定 方法 ， 它 将 输入 的 评级 数据 视 为 两 个 矩 
阵 : 一 个 二 元 偏好 矩阵 P 以 及 一 个 信心 权重 矩阵 C。 


举例 来 说 ， 假 设 之 前 提 到 的 “用 户 -电影 ”评级 实际 上 是 各 用 户 观看 电影 的 次 数 ， 那 上 述 两 

个 矩阵 会 类 似 图 4-6 所 示 。 其 中 ， 和 矩阵 P 表 示 用 户 是 否 看 过 某 些 电影 ， 而 和 矩阵 C 则 以 观看 的 次 数 来 

表示 信心 权重 。 一 般 来 说 ， 某 个 用 户 观看 某 个 电影 的 次 数 越 多 , 那 我 们 对 该 用 户 的 确 喜 欢 该 电影 
的 信心 也 就 越 强 。 


用 户 / 物 品 “《 蝙 蝠 侠 》 《星球 大 战 》《 泰 坦 尼克 号 有 用户/ 物品 《蝙蝠 侠 》 《星球 大 战 》《 泰 坦 尼克 号 


图 4-6 ”用 物品 因子 矩阵 计算 相似 度 
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隐 式 模型 仍然 会 创建 一 个 用 户 因子 矩阵 和 一 个 物品 因子 和 矩阵。 但 是 , 模型 所 求解 的 是 偏好 和 矩 
阵 而 非 评级 矩阵 的 近似 。 类 似 地 ,此 时 用 户 因子 向 量 和 物品 因子 向 量 的 点 积 所 得 到 的 分 数 也 不 再 
是 一 个 对 评级 的 估 值 ， 而 是 对 某 个 用 户 对 某 一 物品 偏好 的 佑 值 (该 值 的 取 值 虽 并 不 严格 地 处 于 0 
到 1 之 间 ， 但 十 分 趋 近 于 这 个 区 间 )。 


3. 最 小 二 乘法 


最 小 二 乘法 ( Alternating Least Squares，ALS ) 是 一 种 求解 矩阵 分 解 问题 的 最 优化 方法 。 它 
功能 强大 、 效 果 理 想 而 且 被 证 明 相 对 容易 并 行 化 。 这 使 得 它 很 适合 如 Spark 这 样 的 平台 。 在 本 书 
写作 时 ， 它 是 MLlib 唯 一 已 实现 的 求解 方法 。 


ALS 的 实现 原理 是 迭代 式 求解 一 系列 最 小 二 乘 回归 问题 。 在 每 一 次 迭代 时 ,固定 用 户 因 子 算 
阵 或 是 物品 因子 矩阵 中 的 一 个 ， 然 后 用 固定 的 这 个 矩阵 以 及 评级 数据 来 更 新 另 一 个 和 矩阵。 之 后 ， 
被 更 新 的 矩阵 被 固定 住 ， 再 更 新 另外 一 个 矩阵 。 如 此 人 迭代, 直到 模型 收敛 (或 是 迭代 了 预 设 好 的 
次 数 a 


Spark 文 档 的 协同 过 滤 部 分 引用 了 ALS 算 法 的 核心 论文 。 对 显 式 数据 和 隐 式 
人 数据 的 处 理 的 组 件 背后 使 用 的 都 是 该 算法 。 具 体 参 见 : http://spark.apache.org/ 
docs/latest/mllib-collaborative-filtering.html。 


4.2 ”提取 有 效 特征 


这 里 ， 我 们 将 采用 显 式 评级 数据 ， 而 不 使 用 其 他 用 户 或 物品 的 元 数据 以 及 “用 户 -物品 ” 交 
互 数据 。 这 样 ， 所 需 的 输入 数据 就 只 需 包括 每 个 评级 对 应 的 用 户 ID 、 影 片 ID 和 具体 的 星 级 。 


从 MovieLens 100k 数 据 集 提取 特征 
从 Spark 主 目录 启动 Spark shell。 启 动 时 保证 内 存 分 配 充足 : 


>./bin/spark-shell -driver-memory 4g 

后 续 代 码 使 用 和 上 一 章 中 相同 的 MovieLens 数 据 集 。 用 你 自己 保存 该 数据 集 的 路 径 作 为 下 面 
代码 中 的 输入 路 径 参 数 。 

先 看 下 原始 的 评级 数据 集 : 


val rawData = sc.textFile("/PATH/ml-100k/u.data") 
rawData.first() 


其 输出 类 似 如 下 所 示 : 
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14/03/30 11:42:41 WARN NativeCodeLoader: Unable to load native-hadoop 

library for your platform... using builtin-java classes where applicable 
14/03/30 11:42:41 WARN LoadSnappy: Snappy native library not loaded 

14/03/30 11:42:41 INFO FileInputFormat: Total input paths to process : 1 
14/03/30 11:42:41 INFO SparkContext: Starting job: first at <console>:15 
14/03/30 11:42:41 INFO DAGScheduler: Got job 0 (first at <console>:15) 

with 1 output partitions (allowLocal=true) 

14/03/30 11:42:41 INFO DAGScheduler: Final stage: Stage 0 (first at <console>:15) 
14/03/30 11:42:41 INFO DAGScheduler: Parents of final stage: List() 

14/03/30 11:42:41 INFO DAGScheduler: Missing parents: List() 

14/03/30 11:42:41 INFO DAGScheduler: Computing the requested partition locally 
14/03/30 11:42:41 INFO HadoopRDD: Input split: file:/Users/Nick/ 
workspace/datasets/ml-100k/u.data:0+1979173 

14/03/30 11:42:41 INFO SparkContext: Job finished: first at <console>:15, 

took 0.030533 s 

res0: String = 196 242 3 881250949 


之 前 也 提 过 , 该 数据 由 用 户 ID、 影 片 D、 星 级 和 时 间 惟 等 字段 依次 组 成 , 各 字段 间 用 制 表 符 
分 隔 。 但 这 里 在 训练 模型 时 ， 时 间 戳 信息 是 不 需要 的 。 那 我 们 简单 地 提取 出 前 三 个 字段 即 可 : 


val rawRatings = rawData.map(_.split("\t").take(3)) 


上 面 先 对 各 个 记录 用 \t 分 割 ， 这 会 返回 一 个 Array [String] 数 组 。 之 后 调用 Scala 的 take 
函数 来 仅 保 留 数组 的 前 三 个 元 素 ， 它 们 分 别 对 应 用 户 ID、 影 片 D、 星 


rawRatings. EO DOM 条 记录 返回 到 驱动 程序 。 通 过 调用 它 ， 我 
们 可 以 检查 一 下 新 RDD。 该 命令 的 输出 如 下 : 


14/03/30 12:24:00 INFO SparkContext: Starting job: first at <console>:21 
14/03/30 12:24:00 INFO DAGScheduler: Got job 1 (first at <console>:21) 

with 1 output partitions (allowLocal=true) 

14/03/30 12:24:00 INFO DAGScheduler: Final stage: Stage 1 (first at <console>:21) 
14/03/30 12:24:00 INFO DAGScheduler: Parents of final stage: List() 

14/03/30 12:24:00 INFO DAGScheduler: Missing parents: List() 

14/03/30 12:24:00 INFO DAGScheduler: Computing the requested partition locally 
14/03/30 12:24:00 INFO HadoopRDD: Input split: file:/Users/Nick/ 
workspace/datasets/ml-100k/u.data:0+1979173 

14/03/30 12:24:00 INFO SparkContext: Job finished: first at <console>:21, 

took 0.00391 s 

res6: Array[String] = Array(196, 242, 3) 


下 面 使 用 Spark 的 MLlib 来 训练 模型 。 先 看 一 下 有 哪些 可 用 模型 及 它们 的 输入 如 何 。 首 先 ， 从 
MLlib 导 入 ALS 模 型 : 


一 


import org.apache.spark.ml1ip.recommendqation.ALS 


在 终端 上 可 以 使 用 Tab 键 来 查看 ALS 对 象 可 用 的 函数 有 那些 。 输入 ALS .( 注意 点 号 ), 然后 按 
Tab 键 ,应 可 看 到 如 下 自动 完成 功能 所 提示 的 函数 项 : 


ALS. 
asInstanceOf isInstanceOf main tostring train trainImplicit 
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这 里 要 使 用 的 函数 是 train。 知 只 输入 ALs.train 然后 回 车 ， 终 端 会 提示 错误 。 但 这 个 错 


误会 包含 该 函数 的 声明 信息 : 


ALS.train 
<console>:12: error: ambiguous reference to overloaded definition, 


both method train in object ALS of type (ratings: org.apache.spark.rdd. 
RDD[org.apache.spark.mllib.recommendation.Rating], rank: Int, iterations: 
Int)org.apache.spark.mllib.recommendation.MatrixFactorizationModel 


and method train in object ALS of type (ratings: org.apache.spark. 
rdd.RDD[org.apache.spark.mllib.recommendation.Rating], rank: Int, 
iterations: Int, lambda: Double)org.apache.spark.mllib.recommendation. 
MatrixFactorizationModel 


match expected type ? 


ALS.train 
人 


由 此 可 知 ， 所 需 提 供 的 输入 参数 至 少 少 有 ratings、 zank 和 iterations。 第 二 个 函数 另外 还 
需要 一 个 lambqa 人 参数 。 先导 入 上 面 提 到 的 Rating 类 ， 再 类 似 地 输入 Rating ( ) 后 回 车 ， 便 可 看 


到 Rating 对 象 所 需 的 参数 : 


import org.apache.spark.mllib.recommendation.Rating 
Rating() 
<console>:13: error: not enough arguments for method apply: (user: Int, 
product: Int, rating: Double)org.apache.spark.mllib.recommendation.Rating 
in object Rating. 
Unspecified value parameters user, product, rating. 

Rating() 


人 


上 述 输出 表明 ALS 模 型 需要 一 个 由 Rating 记 录 构 成 的 RDD,， 而 Rating 类 则 是 对 用 户 ID、 影 


片 ID 这 里 是 通称 product ) 和 实际 星 级 这 些 参数 的 封装 。 我 们 可 以 调用 map 方 法 将 原来 的 各 ID 和 


星 级 的 数组 转换 为 对 应 的 Rating 对 象 ， 从 而 创建 所 需 的 评级 数据 集 。 


化 


val ratings = rawRatings.map { case Array (user, movie, rating) => 
Rating(user.toInt, movie.toInt, rating.toDouble) } 


注意 ， 这 里 需要 使 用 toInt 或 toDouble 来 将 原始 的 评级 数据 ( 它 从 文本 文 
件 生成 ， 类 型 为 String ) 转换 为 Int 或 Double 类 型 的 数值 输入 。 另 外 ， 这 里 还 
人 使 用 了 case 语 多 来 提取 各 属性 对 应 的 变量 名 并 直接 使 用 它们 。( 这 样 就 不 用 使 
~ 用 val user = ratings(0) 之 类 的 表达 。) 
关于 Scala 中 case 语 句 和 模式 匹配 的 更 多 信息 可 参见 http://docs.scala-lang. 
org/tutorials/tour/pattern-matching.html。 
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现在 就 有 了 所 需 的 RDD [Rating] 。 可 以 通过 如 下 命令 验证 它 : 


ratings .first() 

14/03/30 12:32:48 INFO SparkContext : Starting job: first at <console>:24 
14/03/30 12:32:48 INFO DAGScheduler: Got job 2 (first at <console>:24) 

with 1 output partitions (allowLocal=true) 

14/03/30 12:32:48 INFO DAGScheduler: Final stage: Stage 2 (first at <console>:24) 
14/03/30 12:32:48 INFO DAGScheduler: Parents of final stage: List() 

14/03/30 12:32:48 INFO DAGScheduler: Missing parents: List() 

14/03/30 12:32:48 INFO DAGScheduler: Computing the requested partition locally 
14/03/30 12:32:48 INFO HadoopRDD: Input split: file:/Users/Nick/ 
workspace/datasets/ml-100k/u.data:0+1979173 

14/03/30 12:32:48 INFO SparkContext: Job finished: first at <console>:24, 

took 0.003752 s 

res8: org.apache.spark.mllib.recommendation.Rating = Rating(196,242,3.0) 


4.3 ”训练 推荐 模型 


从 原始 数据 提取 出 这 些 简单 特征 后 ,， 便 可 训练 模型 。MLlib 已 实现 模型 训练 的 细节 ， 这 不 需 
要 我 们 担心 。 我 们 只 需 提 供 上 述 指定 类 型 的 新 RDD 以 及 其 他 所 需 参 数 来 作为 训练 的 输入 即 可 。 


4.3.1 使 用 MovieLens 100k 数 据 集 训练 模型 
现在 可 以 开始 训练 模型 了 ， 所 需 的 其 他 参数 有 以 下 几 个 。 


口 rank: 对 应 ALS 模 型 中 的 因子 个 数 ， 也 就 是 在 低 阶 近似 矩阵 中 的 隐 含 特征 个 数 。 因 子 个 
数 一 般 越 多 越 好 。 但 它 也 会 直接 影响 模型 训练 和 保存 时 所 需 的 内 存 开销 ， 尤 其 是 在 用 户 
和 物品 很 多 的 时 候 。 因 此 实践 中 该 参数 常 作为 训练 效果 与 系统 开销 之 间 的 调节 参数 。 通 
常 ， 其 合理 取 值 为 10 到 200。 

口 iterations: 对 应 运行 时 的 迭代 次 数 。ALS 能 确保 每 次 迭代 都 能 降低 评级 矩阵 的 重建 误 
差 , 但 一 般 经 少数 次 迭代 后 ALS 模 型 便 已 能 收敛 为 一 个 比较 合理 的 好 模型 。 这 样 , 大 部 分 
情况 下 都 没 必 要 迭代 太 多 次 10 次 左右 一 般 就 挺 好 )。 

口 lambda: 该 参数 控制 模型 的 正则 化 过 程 ， 从 而 控制 模型 的 过 拟 合 情 况 。 其 值 越 高 ， 正 则 
化 越 严厉 。 该 参数 的 赋值 与 实际 数据 的 大 小 、 特 征 和 稀 玻 程度 有 关 。 和 其 他 的 机 器 学 习 
模型 一 样 ， 正 则 参数 应 该 通过 用 非 样本 的 测试 数据 进行 交叉 验证 来 调整 。 


作为 示例 ， 这 里 将 使 用 的 rank、iterations 和 1ambdqa 人 参数 的 值 分 别 为 930 、10 和 0.01: 


val model = ALS.train(ratings, 50, 10, 0.01) 


上 述 代码 返回 一 个 MatrixFactorizationModel 对 象 。 该 对 象 将 用 户 因子 和 物品 因子 分 别 
保存 在 一 个 (iaq, factor) 对 类 型 的 RDD 中 。 它 们 分 别称 作 userFeatures 和 productFeatures。 
比如 输入 : 
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model .userFeatures 
人 大公 
将 会 输出 : 


resl4: org.apache.spark.rdd.RDD[ (Int, Array[Double])] = 
FlatMappedRDD[659] at flatMap at ALS.scala:231 


可 以 看 到 ， 各 因子 的 类 型 为 Array [Double]。 


注意 ，MLlib 中 ALS 的 实现 里 所 用 的 操作 都 是 延迟 性 的 转换 操作 。 所 以 ， 只 在 当 用 户 因 子 或 
物品 因子 结果 RDD 调 用 了 执行 操作 时 ， 实 际 的 计算 才 会 发 生 。 要 强制 计算 发 生 ， 则 可 调用 Spark 
的 执行 操作 ， 如 count: 


model .userFeatures.count 
这 将 触发 相应 的 计算 并 产生 类 似 如 下 的 输出 : 


14/03/30 13:10:40 INFO SparkContext: Starting job: count at <console>:26 
14/03/30 13:10:40 INFO DAGScheduler: Registering RDD 665 (map at ALS. scala:147) 
14/03/30 13:10:40 INFO DAGScheduler: Registering RDD 664 (map at ALS. scala:146) 
14/03/30 13:10:40 INFO DAGScheduler: Registering RDD 674 

(mapPartitionsWithIindex at ALS.scala:164) 


14/03/30 13:10:45 INFO SparkContext: Job finished: count at <console>:26, took 5.068255 
s res1l6: Long = 943 


在 电影 因子 上 调用 count 将 得 如 下 输出 : 


model .productFeatures.count 

14/03/30 13:15:21 INFO SparkContext: Starting job: count at <console>:26 
14/03/30 13:15:21 INFO DAGScheduler: Got job 10 (count at <console>:26) 
with 1 output partitions (allowLocal=false) 

14/03/30 13:15:21 INFO DAGScheduler: Final stage: Stage 165 (count at 
<console>:26) 

14/03/30 13:15:21 INFO DAGScheduler: Parents of final stage: List(Stage 
169, Stage 166) 

14/03/30 13:15:21 INFO DAGScheduler: Missing parents: List() 

14/03/30 13:15:21 INFO DAGScheduler: Submitting Stage 165 
(FlatMappedRDD[883] at flatMap at ALS.scala:231), which has no missing parents 
14/03/30 13:15:21 INFO DAGScheduler: Submitting 1 missing tasks from 
Stage 165 (FlatMappedRDD[883] at flatMap at ALS.scala:231) 


14/03/30 13:15:21 INFO SparkContext: Job finished: count at <console>:26, 
took 0.030044 5s 
res21: Long = 1682 


恰 如 预 期 ， 每 个 用 户 和 每 部 电影 都 会 有 对 应 的 因子 数组 (分别 含 943 个 和 1682 个 因子 )。 


4.3.2 ”使 用 隐 式 反馈 数据 训练 模型 
MLlib 中 标准 的 矩阵 分 解 模型 用 于 显 式 评级 数据 的 处 理 。 若 要 处 理 隐 式 数据 ， 则 可 使 月 


Pane 
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trainImplicit 国 数 。 其 调用 方式 和 标准 的 Erain 模 式 类 似 ， 但 多 了 一 个 可 设置 的 alpha 人 参数 
(也 是 一 个 正则 化 参数 ，1ambda 应 通过 测试 和 交叉 验证 法 来 设置 )。 

alpha 参 数 指定 了 信心 权重 所 应 达到 的 基准 线 。 该 值 越 高 则 所 训练 出 的 模型 越 认 为 用 户 与 他 
所 没 评级 过 的 电影 之 间 没 有 相关 性 。 


作为 练习 ， 试 将 现 有 的 MovieLens 数 据 集 转换 为 一 个 隐 式 数据 集 。 一 种 方法 
是 将 它 转 为 二 元 的 反馈 数据 ， 这 可 通过 对 评级 设置 某 种 阔 值 来 实现 。 

另 一 种 方式 是 将 评级 值 转 为 信心 权重 。( 比方 说 , 低 评 级 则 意味 权 值 为 0 甚至 
是 负数 ，MLlib 支 持 这 种 方式 。) 

在 该 隐 式 数据 集 上 训练 出 一 个 模型 并 与 下 一 节 的 模型 做 比较 。 


4.4 使 用 推荐 模型 


有 了 训练 好 的 模型 后 便 可 用 它 来 做 预测 。 预 测 通常 有 两 种 : 为 某 个 用 户 推荐 物品 ,或 找 出 与 
某 个 物品 相关 或 相似 的 其 他 物品 。 


4.4.1 用 户 推荐 


用 户 推荐 是 指向 给 定 用 户 推荐 物品 。 它 通常 以 “前 K 个 ”形式 展现 ， 即 通过 模型 求 出 用 户 可 
能 喜好 程度 最 高 的 前 K 个 商品 .这 个 过 程 通过 计算 每 个 商品 的 预计 得 分 并 按照 得 分 进行 排序 实现 。 

具体 实现 方法 取决 于 所 采用 的 模型 。 比 如 若 采用 基于 用 户 的 模型 , 则 会 利用 相似 用 户 的 评级 
来 计算 对 某 个 用 户 的 推荐 。 而 若 采用 基于 物品 的 模型 , 则 会 依靠 用 户 接触 过 的 物品 与 候选 物品 之 
间 的 相似 度 来 获得 推荐 。 


利用 矩阵 分 解 方法 时 , 是 直接 对 评级 数据 进行 建 模 ,， 所 以 预计 得 分 可 视 作 相应 用 户 因 子 向 量 
和 物品 因子 向 量 的 点 积 。 
1. 从 MovieLens 100k 数 据 集 生 成 电影 推荐 


MLlib 的 推荐 模型 基于 和 矩阵 分 解 ， 因 此 可 用 模型 所 求 得 的 因子 和 矩阵 来 计算 用 户 对 物品 的 预计 
评级 。 下 面 只 针对 利用 MovieLens 中 显 式 数据 做 推荐 的 情形 ， 使 用 隐 式 模型 时 的 方法 与 之 相同 。 

MatrixFactorizationModqe1 类 提供 了 一 个 preqaict 国 数 ， 以 方便 地 计算 给 定 用 户 对 给 定 
物品 的 预期 得 分 : 

val predictedRating = model.predict (789, 123) 


其 输出 如 下 : 
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14/03/30 16:10:10 INFO SparkContext: 
MatrixFactorizationModel.scala:45 
14/03/30 16:10:10 INFO DAGScheduler: Got job 30 (lookup at 
MatrixFactorizationModel.scala:45) with 1 output partitions (allowLocal=false) 


Starting job: lookup at 


14/03/30 16:10:10 INFO SparkContext: Job finished: lookup at 
MatrixFactorizationModel.scala:46, took 0.023077 s 
predictedRating: Double = 3.128545693368485 


可 以 看 到 ， 该 模型 预测 用 户 789 对 电影 123 的 评级 为 3.12。 
ea ts odo 这 可 能 让 你 看 到 的 结果 和 这 里 不 同 。 实 际 上 ， 


次 运行 该 模型 所 产生 的 推荐 也 会 不 同 。 


predqict 国 数 同样 可 以 以 (user，item) )ID 对 类 型 的 RDD 对 象 为 输入 ， 这 时 它 将 为 每 一 对 都 
生成 相应 的 预测 得 分 。 我 们 可 以 借助 这 个 函数 来 同时 为 多 个 用 户 和 物品 进行 预测 。 


要 为 某 个 用 户 生成 前 前 天 个 推荐 物品 HH ， 可 借 助 MatrixFactorizationModel 所 提供 自 
recommendqProducts 了 国 数 来 实现 。 该 函数 需 两 个 输入 参数 : user 和 num。 ee 
而 num 是 要 推荐 的 物品 个 数 。 


返回 值 为 预测 得 分 最 高 的 前 num 个 物品 。 
因子 向 量 和 各 个 物品 因子 向 量 的 点 积 。 


现在 ， 算 下 给 用 户 789 推 荐 的 前 10 个 物品 : 


这 些 物品 的 序列 按 得 分 排序 。 该 得 分 为 相应 的 用 户 


val userId = 789 
Val KE EO 


val topKRecs 
这 就 求 得 了 为 用 户 789 所 能 推荐 的 物品 及 对 应 的 预计 得 分 。 将 这 些 信息 打印 出 来 以 便 查 看 : 


println(topKRecs.mkString("\n")) 


其 输出 应 与 如 下 类 似 : 


Rating(789,715,5.931851273771102) 
Rating(789,12,5.582301095666215) 
Rating(789,959,5.516272981542168) 
Rating(789,42,5.458065302395629) 


= model.recommendProducts (userId, K) 


Rating(789,584,5. 
Rating(789,750,5. 
Rating(789,663,5. 
Rating(789,134,5. 
Rating(789,156,5. 
Rating(789,432,5. 
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2. 检验 推荐 内 容 


要 直观 地 检验 推荐 的 效果 , 可 以 简单 比 对 下 用 户 所 评级 过 的 电影 的 标题 和 被 推荐 的 那些 电影 
的 电影 名 。 首 先 ， 我 们 需要 读 入 电影 数据 ( 这 是 在 上 一 章 探索 过 的 数据 集 )。 这 些 数据 会 导 人 为 
Map[Int，String] 类 型 ， 即 从 电影 ID 到 标题 的 映射 : 


val movies = sc.textFile("/PATH/ml-100k/u.item") 

val titles = movies.map(line => line.split("\\|").take(2)) .map(array 
=> (array (0) .toInt, 

array (1))).collectAsMap () 

titles(123) 


其 输出 如 下 : 
res68: String = Frighteners, The (1996) 


对 用 户 789， 我 们 可 以 找 出 他 所 接触 过 的 电影 、 给 出 最 高 评级 的 前 10 部 电影 及 名 称 。 具 体 实 
现时 ， 可 先 用 Spark 的 keyBy 函 数 来 从 ratings RDD 来 创建 一 个 键 值 对 RDD。 其 主键 为 用 户 ID。 
然后 利用 1ookup 函 数 来 只 返回 给 定 键 值 ( 即 特定 用 户 ID ) 对 应 的 那些 评级 数据 到 驱动 程序 。 


val moviesForUser = ratings.keyBy(_.user).lookup(789) 

来 看 下 这 个 用 户 评价 了 多 少 电 影 。 这 会 用 到 moviesForUsetr 的 size 国 数 : 
println(moviesForUser.size) 

可 以 看 到 ， 这 个 用 户 对 33 部 电影 做 过 评级 。 


接 下 来 ， ee 最 高 的 前 10 部 电影 。 具 体 做 法 是 利用 Rating 对 象 的 rating 属 性 来 
对 moviesForUser 和 集合 进行 排序 并 选 出 排名 前 10 的 评级 ( 含 相应 电影 ID ),。 之 后 以 其 为 输入 , 借 
助 titlies 映 射 为 0 具体 评级 )” 形 式 。 再 将 名 称 与 具体 评级 打印 出 来 : 


moviesForUser.sortBy(-_.rating) .take(10) .map (rating => (titles (rating.product), 
rating.rating)).foreach (println) 
其 输出 如 下 : 


(Godfather, The (1972),5.0) 
(Trainspotting (1996),5.0) 
(Dead Man Walking (1995),5.0) 
(Star Wars (1977),5.0) 
(Swingers (1996),5.0) 

(Leaving Las Vegas (1995),5.0) 
(Bound (1996),5.0) 

(Fargo (1996),5.0) 

(Last Supper, The (1995),5.0) 
(Private Parts (1997),4.0) 


现在 看 下 对 该 用 户 的 前 10 个 推荐 , 并 利用 上 述 相同 的 方式 来 查看 它们 的 电影 名 ( 注意 这 些 推 
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荐 已 排序 ): 
topKRecs.map (rating => (titles (rating.product), rating.rating)).foreach (println) 
其 输出 如 下 : 


(To Die For (1995),5.931851273771102) 

(Usual Suspects, The (1995),5.582301095666215) 
(Dazed and Confused (1993),5.516272981542168) 
(Clerks (1994),5.458065302395629) 

(Secret Garden, The (1993),5.449949837103569) 
(Amistad (1997),5.348768847643657) 

(Being There (1979),5.30832117499004) 

(Citizen Kane (1941),5.278933936827717) 
(Reservoir Dogs (1992),5.250959077906759) 
(Fantasia (1940),5.169863417126231) 


读者 可 自己 对 比 下 两 份 电影 名 单 ， 看 这 些 推荐 效果 如 何 。 这 里 不 再 做 阐述 。 


4.4.2 ”物品 推荐 


物品 推荐 是 为 回答 如 下 问题 : 给 定 一 个 物品 ， 有 哪些 物品 与 它 最 相似 ? 这里， 相似 的 确切 定 
义 取 决 于 所 使 用 的 模型 。 大 多 数 情况 下 , 相似 度 是 通过 某 种 方式 比较 表示 两 个 物品 的 向 量 而 得 到 
的 。 和 常见 的 相似 度 衡量 方法 包括 皮尔 森 相 关系 数 ( Pearson correlation )、 针 对 实数 向 量 的 余弦 相 
似 度 (cosine similarity ) 和 针对 二 元 向 量 的 杰 卡 德 相似 系数 ( Jaccard similarity )。 


1. 从 MovieLens 100k 数 据 集 生成 相似 

MatrixFactorizationModel 当 前 的 API 不 能 直接 支持 物品 之 间 相 似 度 的 计算 。 所 以 我 们 
要 自己 实现 。 

这 里 会 使 用 余弦 相似 度 来 衡量 相似 度 。 另 外 采用 jblas 线 性 代数 库 ( MLlib 的 依赖 库 之 一 ) 来 
求 向 量 点 积 。 这 些 和 现 有 的 predict 和 recommendProducts 函 数 的 实现 方式 类 似 ， 但 我 们 会 用 
到 余 弦 相 似 以 度 而 不 仅仅 只 是 求 点 吕 。 


我 们 想 利 用 余弦 相似 度 来 对 指定 物品 的 因子 向 量 与 其 他 物品 的 做 比较 。 进 行 线性 计算 时 , 除 
了 因子 向 量 外 ， 还 需要 创建 一 个 Array [Double] 类 型 的 向 量 对 象 。 以 该 类 型 对 象 为 构造 函数 的 
输入 来 创建 一 个 jblas .DoubleMatrix 类 型 对 象 的 方法 如 下 : 


import org.jblas.DoubleMatrix 
val aMatrix = new DoubleMatrix(Array (1.0, 2.0, 3.0)) 


其 输出 如 下 : 


aMatrix: org.jblas.DoubleMatrix = [1.000000; 2.000000; 3.000000] 
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>» 注意 ,使 用 jblas 时 ， 向 量 和 和 佐 阵 都 表示 为 一 个 DoubleMatrix 类 对 象 ， 但 前 
者 的 是 一 维 的 而 后 者 为 二 维 的 。 


我 们 需要 定义 一 个 函数 来 计算 两 个 向 量 之 间 的 余弦 相似 度 。 余 弦 相 似 度 是 两 个 向 量 在 n 维 空 
间 里 两 者 夹 角 的 度数 。 它 是 两 个 向 量 的 点 积 与 各 向 量 范 数 (或 长 度 ) 的 乘积 的 商 。( 余弦 相似 度 
用 的 范 数 为 L2- 范 数 ，L2-norm。 ) 这 样 ， 余弦 相似 度 是 一 个 正则 化 了 的 点 积 。 


该 相似 度 的 取 值 在 -1 到 1 之 间 。1 表 示 完 全 相似 ,0 表示 两 者 互 不 相关 ( 即 无 相似 性 )。 这 种 衡 
量 方法 很 有 帮助 ， 因 为 它 还 能 捕捉 负 相 关 性 。 也 就 是 说 ， 当 为 -1 时 则 不 仅 表示 两 者 不 相关 ,还 表 
示 它 们 完全 不 同 。 


下 面 来 创建 这 个 cosinesimilarity 困 数 : 


def cosineSimilarity(vec1: DoubleMatrix, vec2: DoubleMatrix): Double = { 


vecl.dot (vec2) / (vecl.norm2() * vec2.norm2()) 
} 
L RE Pe RE 吕 5 人 人 os i 
> 注意 ， 这 里 定义 了 该 函数 的 返回 类 型 为 Double， 但 这 并 非 必 需 。Scala 的 类 
型 推断 机 制 能 自动 知道 这 个 返回 值 。 但 写 明 函数 的 返回 类 型 是 有 帮助 的 。 


下 面 以 物品 567 为 例 从 模型 中 取 回 其 对 应 的 因子 。 这 可 以 通过 调用 1ookup 函 数 来 实现 。 之 前 
曾 用 过 该 函数 来 取 回 特定 用 户 的 评级 信息 。 下 面 的 代码 中 还 使 用 了 head 函 数 。1ookup 函 数 返回 
了 一 个 数组 而 我 们 只 需 第 一 个 值 (实际 上 ,数组 里 也 只 会 有 一 个 值 , 也 就 是 该 物品 的 因子 向 量 )。 

这 个 因子 的 类 型 为 Array [Double] ， 所 以 后 面 会 用 它 来 创建 一 个 Double [Matrix] 对 象 ， 
然后 再 用 该 对 象 来 计算 它 与 自己 的 相似 度 : 


val itemId = 567 

val itemFactor = model.productFeatures.lookup (itemId) .head 
val itemVector = new DoubleMatrix(itemFactor) 
cosineSimilarity (itemVector, itemVector) 


其 输出 如 下 : 
res1l13: Double = 1.0 


现在 求 各 个 物品 的 余弦 相似 度 : 


val sims = model.productFeatures.map{ case (id, factor) => 
val factorVector = new DoubleMatrix(factor) 
val sim = cosineSimilarity (factorVector, itemVector) 
(id, sim) 


} 
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接 下 来 ， 对 物品 按照 相似 度 排序 ， 然 后 取出 与 物品 567 最 相似 的 前 10 个 物品 : 
// 早先 时 已 定义 过 K=10 


val sortedSims = sims.top(K) (Ordering.by[ (Int, Double), Double] { case 
similarity) => similarity }) 


上 述 代码 里 使 用 了 Spark 的 top 函 数 。 相 比 使 用 collect 函 数 将 结果 返回 驱动 程序 然后 再 本 地 


(iad， 


排序 ， 它 能 


分 布 式 计算 出 “前 K 个 ”结果 ， 因 而 更 高 效 。( 注意 ,推荐 系统 要 处 理 的 用 户 和 物品 数 


目 可 能 数 以 百 万 计 。) 

Spark 需 要 知道 如 何 对 sims RDD 里 的 (item id，similarity score) 对 排序 。 为 此 ， 我 
们 另外 传人 了 一 个 参数 给 Eop 函 数 。 这 个 参数 是 一 个 Scala ordering 对 象 , 它 会 告诉 Spark 根 据 键 
值 对 里 的 值 排序 (也 就 是 用 similarity 排 序 )。 

最 后 ， 打 印 出 这 10 个 与 给 定 物品 最 相似 的 物品 : 

println(sortedSims.take(10) .mkString("\n")) 

输出 如 下 : 


(567,1.0000000000000002) 
(1471,0.6932331537649621) 


(670,0 
(201,0 
(343,0 
(563,0 
70 
0 
0 
0 


(294 


(413, 
(184, 
(109, 


很 正常 


物品 。 


.6898690594544726) 
.6897964975027041) 
.6891221044611473) 
.6864214133620066) 
.6812075443259535) 
.6754663844488256) 
.6702643811753909) 
.6594872765176396) 


， 排 名 第 一 的 最 相似 物品 就 是 我 们 给 定 的 物品 。 之 后 便 是 以 相似 度 排序 的 其 他 类 似 


2. 检查 推荐 的 相似 物品 
来 看 下 我 们 所 给 定 的 电影 的 名 称 是 什么 : 
printlin(titles (itemId)) 


输出 为 : 


Wes Craven's New Nightmare (1994) 


如 在 用 户 推荐 中 所 做 过 的 , 我 们 可 以 看 看 推荐 的 那些 电影 名 称 是 什么 , 从 而 直观 上 检查 一 下 
基于 物品 推荐 的 结果 。 这 一 次 我 们 取 前 11 部 最 相似 电影 ， 以 排除 给 定 的 那 部 。 所 以 ， 可 以 选取 列 
表 中 的 第 1 到 11 项 : 


val sortedSims2 = sims.top(K + 1) (Ordering.by[ (Int, Double), Double] { 
(id, similarity) => similarity }) 


Case 
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sortedSims2.slice(1, 11) .map{ case (id, sim) => (titles(id), sim) 
}.mkString("\n") 


这 将 给 出 被 推荐 的 那些 电影 的 名 称 以 及 相应 的 相似 度 : 


(Hideaway (1995),0.6932331537649621) 

(Body Snatchers (1993),0.6898690594544726) 

(Evil Dead II (1987),0.6897964975027041) 

(Alien: Resurrection (1997),0.6891221044611473) 

(Stephen King's The Langoliers (1995),0.6864214133620066) 
(Liar Liar (1997),0.6812075443259535) 

(Tales from the Crypt Presents: Bordello of Blood 
(1996),0.6754663844488256) 

(Army of Darkness (1993),0.6702643811753909) 

(Mystery Science Theater 3000: The Movie (1996),0.6594872765176396) 
(Scream (1996),0.6538249646863378) 


> 同样 因为 模型 的 初始 化 是 随机 的 ,这 里 显示 的 结果 可 能 与 你 运行 得 到 的 结 
果 有 所 不 同 。 


上 面 我 们 使 用 余弦 相似 度 得 出 了 相似 物品 。 可 以 试 着 同样 用 该 相似 度 , 用 用 户 因子 向 量 来 计 
算 与 给 定 用 户 类 似 的 用 户 有 哪些 。 


4.5 推荐 模型 效果 的 评估 


如 何 知道 训练 出 来 的 模型 是 一 个 好 模型 ? 这 就 需要 某 种 方式 来 评估 它 的 预测 效果 。 评 估 指 标 
(evaluation metric ) 指 那些 衡量 模型 预测 能 力 或 准确 度 的 方法 。 它 们 有 些 直 接 度量 模型 的 预测 目 
标 变量 的 好 坏 〈 比如 均 方差 )， 有 些 则 关注 模型 对 那些 其 并 未 针对 性 优化 过 但 又 十 分 接近 真实 应 
用 场景 数据 的 预测 能 力 〈 比如 平均 准确 率 )。 


评估 指标 提供 了 同一 模型 在 不 同 参数 下 , 又 或 是 不 同 模型 之 间 进 行 比较 的 标准 方法 。 通过 这 
些 指标 ， 人 们 可 以 从 待 选 的 模型 中 找 出 表现 最 好 的 那个 模型 。 

这 里 将 会 演示 如 何 计算 推荐 系统 和 协同 过 滤 模 型 里 常用 的 两 个 指标 : 均 方差 以 及 K 值 平均 准 
确 率 。 


4.5.1 ” 均 方差 


均 方差 (Mean Squared Error，MSE ) 直接 衡量 “用 户 - 物 品 ” 评 级 矩阵 的 重建 误差 。 它 也 是 
一 些 模型 里 所 采用 的 最 小 化 目标 函数 ， 特 别 是 许多 和 矩阵 分 解 类 方法 ， 比 如 ALS。 因 此 ， 它 常用 于 
显 式 评级 的 情形 。 
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它 的 定义 为 各 平方 误差 的 和 与 总 数目 的 商 。 其 中 平方 误差 是 指 预测 到 的 评级 与 真实 评级 的 差 
值 的 平方 。 

下 面 以 用 户 789 为 例 做 讲解 。 现 在 从 之 前 计算 的 moviesForUser 这 个 Ratings 集 合 里 找 出 该 
用 户 的 第 一 个 评级 : 

val actualRating = moviesForUser.take(1) (0) 

输出 为 : 

actualRating: org.apache.spark.mllib.recommendation.Rating = Rating(789,1012,4.0) 


可 以 看 到 该 用 户 对 该 电影 的 评级 为 4。 然 后 ， 求 模型 的 预计 评级 : 


val predictedRating = model.predict(789, actualRating.product) 
其 输出 是 : 

14/04/13 13:01:15 INFO SparkContext : Job finished: lookup at 
MatrixFactorizationModel.scala:46, took 0.025404 s 
predictedRating: Double = 4.001005374200248 


可 以 看 出 模型 预测 的 评级 差不多 也 是 4， 十 分 接近 用 户 的 实际 评级 。 最 后 ， 我 们 计算 实际 评 
级 和 预计 评级 的 平方 误差 : 


val squaredError = math.pow(predictedRating - actualRating.rating, 2.0) 
这 将 输出 : 
squaredError: Double = 1.010777282523947E-6 


要 计算 整个 数据 集 上 的 MSE， 需 要 对 每 一 条 (user, movie, actual rating, predictedqd 
rating) 记录 都 计算 该 平均 误差 .然后 求 和 ， 再 除 以 总 的 评级 次 数 。 具 体 实现 如 下 : 


docs/latest/mllib-collaborative-filtering.html。 


| a 以 下 代码 取 自 Apache Spark 编 程 指南 中 的 ALS 部 分 : http://spark.apache.org/ 


首先 从 ratingsRDD 里 提取 用 户 和 物品 的 ID ,并 使 用 model .predict 来 对 各 个 “用 户 - 物 
品 ” 对 做 预测 。 所 得 的 RDD 以 “用 户 和 物品 ID” 对 作为 主键 ， 对 应 的 预计 评级 作为 值 : 


val usersProducts = ratings.map{ case Rating(user, product, rating) 
三 (USery Product} 
} 
val predictions = model.predict (usersProducts) .mapi{ 
case Rating (user, product, rating) => ((user, product), rating) 


} 
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接着 提取 出 真实 的 评级 。 同 时 ， 对 ratings RDD 做 映射 以 让 “用 户 - 物 品 ” 对 为 主键 ， 实 际 
评级 为 对 应 的 值 。 这 样 ， 就 得 到 了 两 个 主键 组 成 相同 的 RDD。 将 两 者 连接 起 来 ， 以 创建 一 个 新 的 
RDD。 这 个 RDD 的 主键 为 “用 户 -物品 ”对 ， 刍 值 为 相应 的 实际 评级 和 预计 评级 。 


val ratingsAndPredictions = ratings.mapt 
case Rating(user, product, rating) => ((user, product), rating) 
}.join(predictions) 


最 后 ， 求 上 述 MSE。 具 体 先 用 *equce 来 对 平方 误差 求 和 ， 然 后 再 除 以 count 函数 所 求 得 的 
总 记录 数 : 
val MSE = ratingsAndPredictions.mapt{ 
case ((user, product), (actual, predicted)) => math.pow((actual - predicted), 2) 


}.reduce(_ + _) / ratingsAndPredictions.count 
println("Mean Squared Error = " + MSE) 


对 应 的 输出 如 下 : 
Mean Squared Error = 0.08231947642632852 


均 方 根 误差 ( Root Mean Squared Error，RMSE ) 的 使 用 也 很 普遍 ， 其 计算 只 需 在 MSE 上 取 平 
方 根 即 可 。 这 不 难 理 解 ， 因 为 两 者 背后 使 用 的 数据 ( 即 评级 数据 ) 相同 。 它 等 同 于 求 预 计 评 级 和 
实际 评级 的 差 值 的 标准 差 。 如 下 代码 便 可 求 出 : 


val RMSE = math.sqart (MSE) 
println("Root Mean Squared Error = " + RMSE) 


其 输出 的 均 方 根 误差 为 : 


Root Mean Squared Error = 0.2869137090247319 


4.5.2 K 值 平均 准确 率 


KK 值 平均 准确 率 ( MAPK ) 的 意思 是 整个 数据 集 上 的 K 值 平均 准确 率 (Average Precision at K 
metric, APK ) 的 均值 APK 是 信息 检索 中 常用 的 一 个 指标 。 它 用 于 衡量 针对 某 个 查询 所 返回 的 “前 
天 个 ”文档 的 平均 相关 性 。 对 于 每 次 查询 ， 我 们 会 将 结果 中 的 前 K 个 与 实际 相关 的 文档 进行 比较 。 


用 APK 指 标 计算 时 , 结果 中 文档 的 排名 十 分 重要 。 如 果 结 果 中 文档 的 实际 相关 性 越 高 且 排 名 
也 更 靠 前 , 那 APK 分 值 也 就 越 高 。 由 此 , 它 也 很 适合 评估 推荐 的 好 坏 。 因 为 推荐 系统 也 会 计算 “前 
K 个 ”推荐 物 ， 然 后 呈现 给 用 户 。 如 果 在 预测 结果 中 得 分 更 高 ( 在 推荐 列表 中 排名 也 更 靠 前 ) 的 
物品 实际 上 也 与 用 户 更 相关 , 那 自然 这 个 模型 就 更 好 。APK 和 其 他 基于 排名 的 指标 同样 也 更 适合 
评估 隐 式 数据 集 上 的 推荐 。 这 里 用 MSE 相 对 就 不 那么 合适 。 


当 用 APK 来 做 评估 推荐 模型 时 ， 个 用 户 相当 于 一 个 查询 ， 而 每 一 个 “前 K 个 ”推荐 物 组 
成 的 集合 则 相当 于 一 个 查 到 的 文档 结果 集合 。 用 户 对 电影 的 实际 评级 便 对 应 着 文档 的 实际 相关 
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[| 
PT 


这 样 ，APK 所 试图 衡量 的 是 模型 对 用 户 感 兴趣 和 会 去 接触 的 物品 的 预测 能 力 。 


以 下 计算 平均 准确 率 的 代码 基于 https:/github.com/benhamnerMetrics。 
关于 MAPK 的 更 多 信息 可 参见 https://www.kaggle.com/wiki/MeanAverage 


Precision。 


计算 APK 的 代码 实现 如 下 : 


def avgPrecisionK(actual: SeqlInt], predicted: Seql[lInt], k: Int): Double = { 
val predK = predicted.take (k) 
Var Score = 0.0 
Var numHits = 0.0 
for ((p, i) <- predK.zipWithIindex) { 
if (actual.contains(p)) { 
numHits += 1.0 
score += numHits / (i.toDouble + 1.0) 


} 
if (actual.isEmpty) { 
J 
} else { 
Score / scala.math.min(actual.size, k) .toDouble 
小 
} 


可 以 看 到 , 该 函数 包括 两 个 数组 。 一 个 以 各 个 物品 及 其 评级 为 内 容 , 男 一 个 以 模型 所 预测 的 
物品 及 其 评级 为 内 容 。 


下 面 来 计算 对 用 户 789 推 荐 的 APK 指 标 怎么 样 。 首 先 提取 出 用 户 实际 评级 过 的 电影 的 ID : 


val actualMovies = moviesForUser.map(_.product) 
人 
输出 如 下 : 


actualMovies: Seq[Int] = ArrayBuffer(1012, 127, 475, 93, 1161, 286, 293, 9, 50, 294, 
181, 1, 1008, 508, 284, 1017, 137, 111, 742, 248, 249, 1007, 591, 150, 276, 151, 129, 
100, 741, 288, 762, 628, 124) 


然后 提取 出 推荐 的 物品 列表 ，K 设 定 为 10: 


val predictedMovies = topKRecs.map(_.product) 

输出 如 下 : 

predictedMovies: Array[Int] = Array(27, 497, 633, 827, 602, 849, 401, 584, 1035, 1014) 
然后 用 下 面 的 代码 来 计算 平均 准确 率 : 


val apk10 = avgPrecisionK(actualMovies, predictedMovies, 10) 
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输出 如 下 : 


apk10: Double = 0.0 
这 里 ，APK 的 得 分 为 0， 这 表明 该 模型 在 为 该 用 户 做 相关 电影 预测 上 的 表现 并 不 理想 。 


全 局 MAPK 的 求解 要 计算 对 每 一 个 用 户 的 APK 得 分 , 再 求 其 平均 。 这 就 要 为 每 一 个 用 户 都 生 
成 相应 的 推荐 列表 。 针 对 大 规模 数据 处 理 时 ， 这 并 不 容易 ， 但 我 们 可 以 通过 Spark 将 该 计算 分 布 
式 进行 。 不 过 ,这 就 会 有 一 个 限制 ， 即 每 个 工作 节点 都 要 有 完整 的 物品 因子 矩阵。 这 样 它们 才能 
独立 地 计算 某 个 物品 向 量 与 其 他 所 有 物品 向 量 之 间 的 相关 性 。 然 而 当 物 品 数 量 众多 时 , 单个 节点 
的 内 存 可 能 保存 不 下 这 个 矩阵 。 此 时 ， 这 个 限制 也 就 成 了 问题 。 


yy 事实 上 并 没有 其 他 简单 的 途径 来 应 对 这 个 问题 ,一 种 可 能 的 方式 是 只 计算 与 
所 有 物品 中 的 一 部 分 物品 的 相关 性 。 这 可 通过 局 部 敏感 哈 希 算法 ( Locality 
Sensitive Hashing ) 等 来 实现 : http://en.wikipedia.org/wiki/Locality-sensitive_hashing。 


下 面 看 一 看 如 何 求解 。 首 先 ， 取 回 物品 因子 向 量 并 用 它 来 构建 一 个 DoubleMatrix 对 象 : 


val itemFactors = model.productFeatures.map { case (id, factor) 
=> factor }.collect(.) 

val itemMatrix = new DoubleMatrix(itemFactors) 
println(itemMatrix.rows, itemMatrix.columns) 


输出 如 下 : 

(1682,50) 

这 说 明 itemMatrix 的 行列 数 分 别 为 1682 和 50。 这 正常 ， 因 为 电影 数目 和 因子 维 数 分 别 就 
是 这 人 么 多 。 接 下 来 ,我 们 将 该 敌阵 以 一 个 广播 变量 的 方式 分 发 出 去 ， 以 便 每 个 工作 节点 都 能 访 
问 到 : 


val imBroadcast = sc.broadcast (itemMatrix) 
将 看 到 如 下 输出 : 


14/04/13 21:02:01 INFO MemoryStore: ensureFreeSpace(672960) called with 
curMem=4006896, maxMem=311387750 

14/04/13 21:02:01 INFO MemoryStore: Block broadcast 21 stored as values 
to memory (estimated size 657.2 KB, free 292.5 MB) 

imBroadcast: org.apache.spark.broadcast .Broadcast [org.jblas.DoubleMatrix] 
= Broadcast (21) 


现在 可 以 计算 每 一 个 用 户 的 推荐 。 这 会 对 每 一 个 用 户 因 子 进行 一 次 map 操 作 。 在 这 个 操作 里 ， 
会 对 用 户 因子 矩阵 和 电影 因子 矩阵 做 乘积 , 其 结果 为 一 个 表示 各 个 电影 预计 评级 的 向 量 (长 度 为 
1682， 即 电影 的 总 数目 )。 之 后 ， 用 预计 评级 对 它们 排序 : 
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val allRecs = model.userFeatures.map{ case (userId, array) => 
val userVector = new DoubleMatrix(array) 
val Scores = imBroadcast.value.mmul (userVector) 
val sortedWithId = scores.data.zipWithIindex.sortBy(-_._1) 
val recommendedIds = sortedWithIid.map(_._2 + 1).toSeg 
(userId, recommendedIds) 


} 
其 输出 如 下 : 


allRecs: org.apache.spark.rdd.RDD[ (Int, Seql[lInt])] = MappedRDD[269] at 
map at <console>:29 


这 样 就 有 了 一 个 由 每 个 用 户 ID 及 各 自 相 对 应 的 电影 ID 列表 构成 的 RDD。 这 些 电影 ID 按照 预 


计 评 级 的 高 低 排 序 。 


>》 如 前 面 代码 片段 中 加 粗 的 部 分 所 示 ， 返 回 的 电影 ID 需要 加 上 1。 这 是 因为 物 
QQ 品 因 子 矩 阵 的 编号 从 0 开始 ， 而 我 们 电影 的 编号 是 从 1 开始 。 


还 需要 每 个 用 户 对 应 的 一 个 电影 ID 列 表 作为 传人 到 APK 函 数 的 actual 参 数 。 我 们 已 经 有 


ratings 了 RDD， 所 以 只 需 从 中 提取 用 户 和 电影 的 ID 即 可 。 


使 用 Spark 的 groupBy 操 作 便 可 得 到 一 个 新 RDD。 该 RDD 包 含 每 个 用 户 ID 所 对 应 的 (useria， 


movieid) 对 (因为 groupBy 操 作 所 用 的 主键 就 是 用 户 ID ): 


val userMovies = ratings.map{ case Rating(user, product, rating) => 
(user, product)}.groupBy(_._1) 

人 
其 输出 如 下 : 


userMovies: org.apache.spark.rdd.RDD[(Int, Seq[l(Int, Int)])] = 
MapPartitionsRDD[277] at groupBy at <console>:21 


最 后 ， 可 以 通过 Spark 的 jion 操 作 将 这 两 个 RDD 以 用 户 ID 相连 接 。 这 样 ， 对 于 每 一 个 用 户 ， 


我 们 都 有 一 个 实际 和 预测 的 那些 电影 的 D。 这 些 ID 可 以 作为 APK 函 数 的 输入 。 与 计算 MSE 时 类 
似 , 我 们 调用 reduce 操 作 来 对 这 些 APK 得 分 求 和 , 然后 再 除 以 总 的 用 户 数目 ( 即 allRecsRDD 
的 大 小 小 


Val Ke 10 
val MAPK = allRecs.join(userMovies) .map{ case (userId, (predicted, 
actualWithIds)) => 


val actual = actualWithIds .map(_._ 2) .toSed 
avgPrecisionK(actual, predicted, K) 

}.reduce(_ + _) / allRecs.count 

println("Mean Average Precision at K = " + MAPK) 


上 述 代 码 会 输出 指定 K 值 时 的 平均 准确 度 : 
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Mean Average Precision at K = 0.030486963254725705 


我 们 模型 的 MAPK 得 分 相当 低 。 但 请 注意 ,推荐 类 任务 的 这 个 得 分 通常 都 较 低 ,， 特别 是 当 物 
品 的 数量 极 大 时 。 


试 着 给 lambda 和 rank 设 置 其 他 的 值 ， 看 一 下 你 能 否 找 到 一 个 RMSE 和 MAPK 得 分 更 好 的 
模型 。 


4.5.3 ”使 用 MLlib 内 置 的 评估 函数 


前 面 我 们 从 零 开始 对 模型 进行 了 MSE、RMSE 和 MAPK 三 方面 的 评估 。 这 是 一 段 很 有 用 的 练 
习 。 同 样 ，MLlib 下 的 RegressionMetrics 和 RankingMetrics 类 也 提供 了 相应 的 函数 以 方便 
模型 评估 。 


1. RMSE 和 MSE 


首先 ,我们 使 用 RegressionMetrics 来 求解 MSE 和 RMSE 得 分 。 实 例 化 一 个 Regression- 
Metrics 对 象 需要 一 个 键 值 对 类 型 的 RDD。 其 每 一 条 记录 对 应 每 个 数据 点 上 相应 的 预测 值 与 实际 
值 。 代 码 实 现 如 下 。 这 里 仍然 会 用 到 之 前 已 经 算出 的 ratingsAndPredictions RDD: 


import org.apache.spark.mllib.evaluation.RegressionMetrics 

val predictedAndTrue = ratingsAndPredictions.map { case ((user, 
product), (predicted, actual)) => (predicted, actual) } 

val regressionMetrics = new RegressionMetrics (predictedAndTrue) 


之 后 就 可 以 查看 各 种 指标 的 情况 ， 包 括 MSE 和 RMSE。 下 面 将 这 些 指 标 打印 出 来 : 


println("Mean Squared Error = " + regressionMetrics.meanSquaredError) 
println("Root Mean Squared Error = " + regressionMetrics.rootMeanSquaredError) 


可 以 看 到 ， 输 出 的 MSE 和 RMSE 结 果 和 之 前 我 们 所 得 到 的 完全 相同 : 


Mean Squared Error = 0.08231947642632852 
Root Mean Squared Error = 0.2869137090247319 


2. MAP 


与 计算 MSE 和 RMSE 一 样 ， 可 以 使 用 MLlib 的 RankingMetrics 类 来 计算 基于 排名 的 评估 指 
标 。 类 似 地 ,需要 向 我 们 之 前 的 平均 准确 率 函 数 传人 一 个 键 值 对 类 型 的 RDD。 其 键 为 给 定 用 户 预 
测 的 推荐 物品 的 ID 数组 ， 而 值 则 是 实际 的 物品 ID 数组 。 

RankingMetrics 中 的 K 值 平均 准确 率 函 数 的 实现 与 我 们 的 有 所 不 同 ， 因 而 结果 会 不 同 。 但 


全 局 平均 准确 率 ( Mean Average Precision ，MAP ， 并 不 设 定 冰 值 上 ) 会 和 当 K 值 较 大 ( 比如 设 为 
总 的 物品 数目 ) 时 我 们 模型 的 计算 结果 相同 。 
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首先 ， 使 用 RankingMetrics 来 计算 MAP: 


import org.apache.spark.mllib.evaluation.RankingMetrics 
val predictedAndTrueForRanking = allRecs.join(userMovies) .map{ case 
(userId, (predicted, actualWwithIds)) => 

val actual = actualWithIds.map(_._2) 

(predicted.toArray, actual .toArray) 
} 
val rankingMetrics = new RankingMetrics (predictedAndTrueForRanking) 
println("Mean Average Precision = " + rankingMetrics.meanAveragePrecision) 


其 输出 如 下 : 
Mean Average Precision = 0.07171412913757183 
接 下 来 用 和 之 前 完全 相同 的 方法 来 计算 MAP， 但 是 将 K 值 设 到 很 高 ， 比 如 2000: 


val MAPK2000 = allRecs.join(userMovies) .map{ case (userId, (predictedqd, 


actualWithIds)) => 
val actual = actualWithIds .map(_._ 2) .toSed 
avgPrecisionK(actual, predicted, 2000) 
}.reduce(_ + _) / allRecs.count 
printlin("Mean Average Precision = " + MAPK2000) 


你 会 发 现 ， 用 这 种 方法 计算 得 到 的 MAP 与 使 用 RankingMetrics 计 算得 出 的 MAP 相 同 : 


Mean Average Precision = 0.07171412913757186 


注意 ,本 章 并 未 涉及 交叉 验证 ， 相 关内 容 后 面 会 详细 讲述 。 那 些 方法 同样 可 
用 于 推荐 模型 的 性 能 指标 评估 ,这 些 指标 就 包括 本 章 提 到 的 MSE、RMSE 和 MAP。 


4.6 小 结 


娃 


本 章 , 我 们 用 Spark 的 MLlib 库 训练 了 一 个 协同 过 滤 推 荐 模型 。 我 们 也 学 会 了 如 何 使 用 该 模型 
来 向 用 户 推荐 他 们 可 能 会 喜好 的 物品 ， 以 及 找 出 和 指定 物品 类 似 的 物品 。 最 后 ,我 们 用 一 些 常 见 
的 指标 来 对 该 模型 的 预测 能 力 进 行 了 评估 。 


下 一 章 将 讲 到 如 何 使 用 Spark 来 训练 一 个 模型 以 对 数据 分 类 ， 以 及 用 标准 的 评估 机 制 来 衡量 
模型 性 能 。 
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Spark 构 建 分 类 模型 


本 章 , 你 将 学 习 分 类 模型 的 基础 知识 以 及 如 何在 各 种 应 用 中 使 用 这 些 模型 。 分 类 通常 是 指 将 
事物 分 成 不 同 的 类 别 。 在 分 类 模型 中 , 我 们 期 望 根据 一 组 特征 来 判断 类 别 , 这 些 特 征 代表 了 物体 、 
事件 或 上 下 文 相关 的 属性 ( 变量 )。 


最 简单 的 分 类 形式 是 分 两 个 类 另 


1， 即 “二 分 类 ”。 一 般 讲 其 中 一 类 标记 为 正 类 ( 记 为 1 )， 另 
外 一 类 标记 为 负 类 ( 记 为 -1 或 者 0 )。 


图 5-1 展 示 了 一 个 二 分 类 的 简单 例子 。 例 子 中 输入 的 特征 有 二 维 ， 分 别 用 x 和 y 轴 表示 每 一 维 


的 值 。 我 们 的 目标 是 训练 一 个 模型 ， 可 以 将 二 维 空间 中 的 新 数据 点 分 成 红色 和 蓝 色 两 类 。 (| 
0° a 0 ° 四 9 oo 
龟 和 oo 
® © 和 9 9?o 
. se e “9 
所 ., 外 » 。 


图 5-1 一 个 简单 的 二 分 类 问题 
如 果 不 止 两 类 ， 则 称 为 多 类 别 分 类 ,， 这 时 的 类 别 一 般 从 0 开始 进行 标记 ( 比如 ，5 个 类 别 用 数 


字 0~4 表 示 )。 多 分 类 的 示例 见 图 5-2。 同 样 地 ， 为 了 方便 说 明 ， 假 定 输入 的 是 二 维特 征 。 
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图 5-2 一 个 简单 的 多 类 别 分 类 问题 


分 类 是 监督 学 习 的 一 种 形式 , 我 们 用 带 有 类 标记 或 者 类 输出 的 训练 样本 训练 模型 ( 也 就 是 通 


过 输出 结果 监督 被 训练 的 模型 )。 


分 类 模型 适用 于 很 多 情形 ， 一 些 常 见 的 例子 如 下 : 


口 预测 互联 网 用 户 对 在 线 广告 的 点 击 概率 , 这 本 质 上 是 一 个 二 分 类 问题 (点击 或 者 不 点 击 ); 
口 检测 欺诈 ， 这 同样 是 一 个 二 分 类 问题 ( 欺诈 或 者 不 是 欺诈 ); 

口 预测 拖欠 贷款 ( 二 分 类 问题 ); 

口 对 图 片 、 视 频 或 者 声音 分 类 ( 大 多 情况 下 是 多 分 类 ， 并 且 有 许多 不 同 的 类 别 ); 

口 对 新 闻 、 网 页 或 者 其 他 内 容 标记 类 别 或 者 打 标签 〈 多 分 类 ); 

口 发 现 垃 圾 邮件 、 垃 圾 页 面 、 网 络 入侵 和 其 他 恶意 行为 ( 二 分 类 或 者 多 分 类 ); 

口 检测 故障 ， 比 如 计算 机 系统 或 者 网 络 的 故障 检测 ; 

口 根据 顾客 或 者 用 户 购买 产品 或 者 使 用 服务 的 概率 对 他 们 进行 排序 ( 这 可 以 建立 分 类 模型 
预测 概率 并 根据 概率 从 大 到 小 排序 ) ; 

口 预测 顾客 或 者 用 户 中 谁 有 可 能 停止 使 用 某 个 产品 或 服务 。 


上 面 仅仅 列举 了 一 些 可 行 的 用 例 。 实 际 上 , 在 现代 公司 特别 是 在 线 公 司 中 , 分 类 方法 可 以 说 


是 机 器 学 习 和 统计 领域 使 用 最 广泛 的 技术 之 一 。 


本 章 ， 我 们 将 : 
口 讨论 MLlib 中 各 种 可 用 的 分 类 模型 ; 
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口 使 用 Spark 从 原始 输入 数据 中 抽取 合适 的 特征 ; 
口 使 用 MLlib 训 练 若 干 分 类 模型 ; 

口 用 训练 好 的 分 类 模型 做 预测 ; 

口 应 用 一 些 标准 的 评价 方法 来 评估 模型 的 预测 性 能 ; 

口 使 用 第 3 章 中 的 特征 抽取 方法 来 说 明 如 何 改进 模型 性 能 ; 

口 研究 参数 调 优 对 模型 性 能 的 影响 ， 并 且 学 习 如 何 使 用 交叉 验证 来 选择 最 优 的 模型 参数 。 


5.1 分 类 模型 的 种 类 


我 们 将 讨论 Spark 中 常见 的 三 种 分 类 模型 : 线性 模型 、 决 策 树 和 朴素 贝 叶 斯 模型 。 线 性 模型 ， 
简单 而 且 相对 容易 扩展 到 非常 大 的 数据 集 ; 决策 树 是 一 个 强大 的 非 线 性 技术 , 训练 过 程 计算 量 大 
并 且 较 难 扩展 ( 幸运 的 是 ，MLlib 会 蔡 我 们 考虑 扩展 性 的 问题 ), 但 是 在 很 多 情况 下 性 能 很 好 ; 朴 
素 贝 叶 斯 模型 简单 、 易 训练 , 并且 具有 高 效 和 并 行 的 优点 ( 实际 中 , 模型 训练 只 需要 遍历 所 有 数 
据 集 一 次 )。 当 采用 合适 的 特征 工程 ， 这 些 模型 在 很 多 应 用 中 都 能 达到 不 错 的 性 能 。 而 且 ， 朴 素 
贝 叶 斯 模型 可 以 作为 一 个 很 好 的 模型 测试 基准 ， 用 于 比较 其 他 模型 的 性 能 。 


目前 ，Spark 的 MLlib 库 提供 了 基于 线性 模型 、 决 策 树 和 朴素 贝 叶 斯 的 二 分 类 模型 ， 以 及 基于 
决策 树 和 朴素 贝 叶 斯 的 多 类 别 分 类 模型 。 本 书 为 了 方便 起 见 ， 将 关注 二 分 类 问题 。 


5.1.1 线性 模型 


线性 模型 的 核心 思想 是 对 样本 的 预测 结果 ( 通常 称 为 目标 或 者 因 变量 ) 进行 建 模 ， 即 对 输入 

变量 ( 特征 或 者 自 变 量 ) 应 用 简单 的 线性 预测 函数 。 
y=f (wx) 

这 里 y 是 目标 变量 ，w 是 参数 向 量 ( 也 称 为 权重 向 量 )，x 是 输入 的 特征 向 量 。 

(wzz) 是 关于 权重 向 量 w 和 特征 向 量 x 的 线性 预测 器 ( 又 称 向 量 点 积 )， 然 后 输入 到 函数 ( 又 
称 连接 函数 )。 

实际 上 ， 通 过 简单 改变 连接 函数 A 线性 模型 不 仅 可 以 用 于 分 类 还 可 以 用 于 回归 。 标 准 的 线 
性 回归 ( 见 下 章 ) 使 用 对 等 连接 函数 (identity link， 即 直接 使 用 y= fw'x )， 而 线性 分 类 器 使 用 
上 面 提 到 的 连接 函数 。 

让 我 们 来 看 一 个 在 线 广告 的 例子 。 例子 中 ， 如 果 网 页 中 展示 的 广告 没有 被 点 击 ， 则 目标 变量 
标记 为 0 ( 在 数学 表示 中 通常 使 用 -1 )， 如 果 发 生 点 击 ， 则 目标 变量 标记 为 1。 每 次 曝光 的 特征 向 


量 由 曝光 事件 相关 的 变量 组 成 ( 比如 用 户 、 网 页 、 广 告 和 广告 客户 ,以 及 设备 类 型 、 事 件 、 地 理 
位 置 等 其 他 因素 相关 的 特征 )。 
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于 是 , 我 们 要 训练 一 个 模型 ,将 给 定 输入 的 特征 向 量 (广告 曝光 ) 映射 到 预测 的 输出 (点击 
或 者 未 点 击 )。 对 于 一 个 新 的 数据 点 ， 我 们 将 得 到 一 个 新 的 特征 向 量 ( 此 时 不 知道 预测 的 目标 输 
出 )， 并 将 其 与 权重 向 量 进 行 点 积 。 然 后 对 点 积 的 结果 应 用 连接 函数 ， 最 后 函数 的 结果 便 是 预测 
的 输出 在 一 些 模型 中 ， 还 会 将 输出 结果 与 设 定 的 阐 值 进行 判断 后 得 到 预测 结果 )。 

给 定 输入 数据 的 特征 向 量 和 相关 的 目标 值 , 存在 一 个 权重 向 量 能 够 最 好 对 数据 进行 拟 合 , 拟 
合 的 过 程 即 最 小 化 模型 输出 与 实际 值 的 误差 。 这 个 过 程 称 为 模型 的 拟 合 、 训 练 或 者 优化 。 
具体 来 说 , 我 们 需要 找到 一 个 权重 向 量 能 够 最 小 化 所 有 训练 样本 的 由 损失 函数 计算 出 来 的 损 


失 (误差 ) 之 和 。 损失 函数 的 输入 是 给 定 的 训练 样本 的 权重 向 量 、 特 征 向 量 和 实际 输出 ,输出 是 
损失 。 实 际 上 ， 损 失 函 数 也 被 定义 为 连接 函数 ， 每 个 分 类 或 者 回归 函数 会 有 对 应 的 损失 函数 。 


需要 进一步 了 解 线性 模型 和 损失 函数 的 细节 ， 可 以 查阅 《Spark 编 程 指南 》 
yy! 线性 方法 中 关于 二 分 类 的 部 分 : http://spark.apache.org/docs/latest/mllib-linear- 
Q methods.html#binary-classification。 
同时 ， 也 可 以 在 维基 百科 中 查阅 generalized linear model ( 广义 线性 模型 ): 
http://en.wikipedia.org/wiki/Generalized linear model。 


本 书 不 会 讨论 线性 模型 和 损失 函数 的 细节 ， 只 介绍 MLlib 提 供 的 两 个 适合 二 分 类 模型 的 损失 
函数 ( 更 多 内 容 请 看 Spark 文 档 )。 第 一 个 是 逻辑 损失 ( logistic loss )， 等 价 于 逻辑 回归 模型 。 第 二 
个 是 合 页 损失 ( hinge loss )， 等 价 于 线性 支持 向 量 机 ( Support Vector Machine，SVM )。 需 要 指出 
的 是 , 这 里 的 SVM 严格 上 不 属于 广义 线性 模型 的 统计 框架 , 但 是 当 制定 损失 函数 和 连接 函数 时 在 
使 用 方法 上 相同 。 

图 $-3 展 示 了 与 0-1 损 失 相 关 的 逻辑 损失 和 合 页 损失 。 对 二 分 类 来 说 , 0-1 损 失 的 值 在 模型 预测 
正确 时 为 0， 在 模型 预测 错误 时 为 1 实际 中 ，0-1 损 失 并 不 篆 用 ， 原 因 是 这 个 损失 因数 不 可 微分 ， 
计算 梯度 非常 困难 并 目 难 以 优化 。 而 其 他 的 损失 函数 作为 0-1 损 失 的 近似 可 以 进行 优化 。 


linear model/plot sgd loss_ functions.html。 


| 图 5-3 来 自 scikit-learn 的 样 例 : http://scikit-learn.org/stable/auto examples/ 
fi 
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图 5-3 ”逻辑 损失 函数 、 合 页 损失 函数 以 及 0-1 损 失 函 数 


1. 逻辑 回归 

逻辑 回归 是 一 个 概率 模型 ， 也 就 是 说 该 模型 的 预测 结果 的 值 域 为 [0,1]。 对 于 二 分 类 来 说 ， 逻 
辑 回 归 的 输出 等 价 于 模型 预测 某 个 数据 点 属于 正 类 的 概率 估计 。 逻 辑 回 归 是 线性 分 类 模型 中 使 用 
最 广泛 的 一 个 。 

上 面 提 到 过 ， 逻 辑 回 归 使 用 的 连接 函数 为 逻辑 连接 : 


1/ (+exp(—w' x)) 


逻辑 回归 的 损失 函数 是 逻辑 损失 : 

log(l + exp(—yw" x)) 
其 中 ?是 实际 的 输出 值 ( 正 类 为 1， 负 类 为 -1 )。 
2. 线性 支持 向 量 机 


SVM 在 回归 和 分 类 方面 是 一 个 强大 且 流 行 的 技术 。 和 逻辑 回归 不 同 ，SVM 并 不 是 概率 模型 ， 
但 是 可 以 基于 模型 对 正 负 的 估计 预测 类 别 。 


SVM 的 连接 函数 是 一 个 对 等 连接 函数 ， 因 此 预测 的 输出 表示 为 : 
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了 =WIx 


因此 ， 当 wix 的 估计 值 大 于 等 于 阔 值 0 时 ，SVM 对 数据 点 标记 为 1， 和 否则 标记 为 0 ( 其 中 净值 
是 SVM 可 以 自 适 应 的 模型 参数 )。 


SVM 的 损失 函数 被 称 为 合 页 损失 ， 定 义 为 : 


max(0, 1 — yw x) 


SVM 是 一 个 最 大 间隔 分 类 器 , 它 试 图 训练 一 个 使 得 类 别 尽 可 能 分 开 的 权重 向 量 。 在 很 多 分 类 
任务 中 ，SVM 不 仅 表 现 得 性 能 突出 ， 而 且 对 大 数据 集 的 扩展 是 线性 变化 的 。 


7 SVM 有 着 大 量 的 理论 支撑 ， 本 书 不 去 讨论 ， 读 者 可 以 访问 如 下 网 址 了 解 更 
多 相关 知识 : http:/en.wikipedia.org/wiki/Support vector machine 和 http://www:. 


support-vector-machines.org/。 


在 图 5-4 中 , 基于 原先 的 二 分 类 简单 样 例 , 我 们 画 出 了 关于 逻辑 回归 ( 蓝 线 ) 和 线性 SVM ( 红 
线 ) 的 决策 函数 : 


从 图 中 可 以 看 出 SVM 可 以 有 效 定位 到 最 靠近 决策 函数 的 数据 点 ( 间隔 线 用 红色 的 虚线 
表示 ): 


图 $-4 ”逻辑 回归 和 线性 SVM 对 二 分 类 的 决策 函数 
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5.1.2 ”朴素 贝 叶 斯 模型 


朴素 贝 叶 斯 是 一 个 概率 模型 ,通过 计算 给 定数 据点 在 某 个 类 别 的 概率 来 进行 预测 。 朴 素 贝 叶 
斯 模型 假定 每 个 特征 分 配 到 某 个 类 别 的 概率 是 独立 分 布 的 〈 假定 各 个 特征 之 间 条 件 独 立 )。 


基于 这 个 假设 , 属于 某 个 类 别 的 概率 表示 为 若干 概率 乘积 的 函数 , 其 中 这 些 概 率 包括 某 个 特 
征 在 给 定 某 个 类 别 的 条 件 下 出 现 的 概率 〈 条 件 概 率 )， 以 及 该 类 别 的 概率 ( 先 验 概率 )。 这样 使 得 
模型 训练 非常 直接 且 易 于 处 理 。 类 别 的 先 验 概率 和 特征 的 条 件 概率 可 以 通过 数据 的 频率 估计 得 
到 。 分 类 过 程 就 是 在 给 定 特征 和 类 别 概率 的 情况 下 选择 最 可 能 的 类 别 。 


另外 还 有 一 个 关于 特征 分 布 的 假设 ， 即 参数 的 估计 来 自 数 据 。MLlib 实 现 了 多 项 朴素 贝 叶 基 
( multinomial naive Bayes )， 其 中 假设 特征 分 布 是 多 项 分 布 ， 用 以 表示 特征 的 非 负 频 率 统计 。 

上 述 假设 非常 适合 二 元 特征 〈 比如 1-of-kx，A 维 特征 向 量 中 只 有 1 维 为 1， 其 他 为 0)， 并且 普遍 
用 于 文本 分 类 ( 第 3 章 中 介绍 的 词 袋 模型 是 一 个 典型 的 二 元 特征 表示 )。 


一 


可 以 看 一 看 Spark 文 档 中 MLlib-Naive Bayes 部 分 : http://spark.apache.org/do 


cs/latest/mllib-naive-bayes.html。 维 基 百 科 中 详细 的 数学 公式 解释 : http://en.wi 5 


kipedia. org/wiki/Naive_Bayes classifier, 


图 5-5 展 示 了 朴素 贝 叶 斯 在 二 分 类 样本 上 的 决策 函数 : 


图 5-5 ”朴素 贝 叶 斯 模型 在 二 分 类 问题 上 的 决策 函数 
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5.1.3 ”决策 树 


决策 树 是 一 个 强大 的 非 概率 模型 , 它 可 以 表达 复杂 的 非 线性 模式 和 特征 相互 关系 。 决 策 树 在 
很 多 任务 上 表现 出 的 性 能 很 好 ， 相 对 容易 理解 和 解释 ,可 以 处 理 类 属 或 者 数值 特征 ， 同 时 不 要 求 
输入 数据 归 一 化 或 者 标准 化 。 决 策 树 非 常 适合 应 用 集成 方法 (ensemble method )， 比 如 多 个 决策 
树 的 集成 ， 称 为 决策 树 森 林 。 


决策 树 模型 就 好 比 一 棵 树 ， 叶 子 代表 值 为 0 或 1 的 分 类 ， 树 枝 代表 特征 。 如 图 $-6 所 示 ， 二 元 
输出 分 别 是 “ 待 在 家 里 ”和 “去 海滩 " ， 特 征 则 是 天 气 。 


镶 


是 个 


图 5-6 简单 的 决策 树 


决策 树 算 法 是 一 种 自 上 而 下 始 于 根 节点 (或 特征 ) 的 方法 , 在 每 一 个 步骤 中 通过 评估 特征 分 
裂 的 信息 增益 , 最 后 选 出 分 割 数据 集 最 优 的 特征 。 信 息 增 益 通过 计算 节点 不 纯度 ( 即 节点 标签 不 
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相似 或 不 同 质 的 程度 ) 减 去 分 割 后 的 两 个 子 节点 不 纯度 的 加 权 和 。 对 于 分 类 任务 ， 这 里 有 两 个 评 
佑 方法 用 于 选择 最 好 分 割 : 基尼 不 纯 和 类 。 


、 要 进一步 了 解决 策 树 算法 和 不 纯度 估计 ， 请 参考 《Spark 编 程 指南 》 中 的 
“MLlib-Decision Tree” 部 分 : http://spark.apache.org/docs/latest/mllib-decision- 
tree.html。 


如 图 5-7 所 示 ， 和 之 前 模型 一 样 ， 我 们 画 出 了 决策 树 模 型 的 决策 边界 ， 可 以 看 到 决策 树 能 够 
适应 复杂 和 非 线性 的 模型 。 


图 5-7 ”决策 树 在 二 分 类 问题 上 的 决策 函数 


5.2 ”从 数据 中 抽取 合适 的 特征 


回顾 第 3 章 ， 可 以 发 现 大 部 分 机 器 学 习 模 型 以 特征 向 量 的 形式 处 理 数值 数据 。 另 外 ， 对 于 分 
类 和 回归 等 监督 学 习 方 法 ， 需 要 将 目标 变量 (或 者 多 类 别 情况 下 的 变量 ) 和 特征 向 量 放 在 一 起 。 


MLlib 中 的 分 类 模型 通过 LabeledqPoint 对 象 操作 ， 其 中 封装 了 目标 变量 ( 标签 ) 和 特征 向 量 : 

case class LabeledPoint (label: Double, features: Vector) 

虽然 在 使 用 分 类 模型 的 很 多 样 例 中 会 磁 到 向 量 格式 的 数据 集 , 但 在 实际 工作 中 , 通常 还 需要 
从 原始 数据 中 抽取 特征 。 正 如 前 几 章 介绍 的 ,这 包括 封装 数值 特征 、 归 一 或 者 正则 化 特征 ,以 及 
使 用 1-of-k 编 码 表示 类 属 特征 。 
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从 Kaggle/StumbleUpon evergreen 分 类 数据 集中 抽取 特征 


考虑 到 推荐 模型 中 的 MovieLens 数 据 集 和 分 类 问题 无 关 ， 本 章 将 使 用 另外 一 个 数据 集 。 这 个 
数据 集 源 自 Kaggle 比 赛 ， 由 StumbleUpon 提 供 。 比 赛 的 问题 涉及 网 页 中 推荐 的 页 面 是 短暂 ( 短暂 
存在 ， 很 快 就 不 流行 了 ) 还 是 长 久 (长 时 间 流 行 )。 


;2 下 载 这 个 数据 的 链接 在 这 里 : http:/www.kaggle.com/c/stumbleupon/data。 下 
载 训练 数据 (train.tsv ) 之 前 ， 需 要 点 击 同意 条 款 。 关 于 更 多 有 关 比 赛 的 信息 ， 
可 以 看 这 里 : http://www.kaggle.com/c/stumbleupon。 


开始 之 前 ， 为 了 让 Spark 更 好 地 操作 数据 ， 我 们 需要 删除 文件 第 一 行 的 列 头 名 称 。 进 入 数据 
的 目录 (这 里 用 PATH 表 示 )， 然 后 输入 如 下 命令 删除 第 一 行 并 且 通 过 管道 保存 到 以 
train_ noheadertsv 命 名 的 新 文件 中 


>sed 1d train.tsv > train noheader .tsvV 

现在 ， 启 动 Spark shell ( 在 Spark 的 安装 目录 下 启动 这 个 命令 ): 
>./bin/spark-shell --driver-memory 4g 

你 可 以 在 Spark shell 中 输入 本 章 后 面 的 代码 。 

和 之 前 几 章 类 似 ， 我 们 将 训练 数据 读 人 RDD 并 且 进 行 检查 : 
val rawData = sc.textFile("/PATH/train noheader.tsv") 


val records = rawData.map (line => line.split("\t")) 
records.first() 


输出 如 下 : 


Array[String] = Array("http://www.bloomberg.com/news/2010-12-23/ibmpredicts- 
holographic-calls-air-breathing-batteries-by-2015.html", "4042", 


可 以 查看 上 面 的 数据 集 页 面 中 的 简介 得 知 可 用 的 字段 。 开 始 四 列 分 别 包含 URL、 页 面 的 D、 
原始 的 文本 内 容 和 分 配给 页 面 的 类 别 。 接 下 来 22 列 包含 各 种 各 样 的 数值 或 者 类 属 特征 。 最 后 一 列 
为 目标 值 ，-1 为 长 入，0 为 短暂 。 

我 们 将 用 简单 的 方法 直接 对 数值 特征 做 处 理 。 因 为 每 个 类 属 变量 是 二 元 的 , 对 这 些 变量 已 有 
一 个 用 1-of-k 编 码 的 特征 ， 于 是 不 需要 额外 提取 特征 。 

由 于 数据 格式 的 问题 ， 我 们 做 一 些 数据 清理 的 工作 ， 在 处 理 过 程 中 把 额外 的 (" ) 去 掉 。 数 
据 集中 还 有 一 些 用 "? "代替 的 缺失 数据 ， 本 例 中 ， 我 们 直接 用 0 蔡 换 那些 缺失 数据 : 


import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.linalg.Vectors 
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val data = records.map { r => 
val trimmed = r.map(_.replaceAll("\"", "")) 
val label = trimmed(r.size - 1).toInt 
val features = trimmed.slice(4, r.size - 1).map(d => if (d == 
"?") 0.0 else d.toDouble) 
LabeledPoint (label, Vectors.dense (features)) 


} 

在 清理 和 处 理 缺 失 数据 后 ， 我 们 提取 最 后 一 列 的 标记 变量 以 及 第 5 列 到 第 25 列 的 特征 矩阵。 
将 标签 变量 转换 为 Int 值 ,特征 向 量 转换 为 Double 数 组 。 最 后 , 我 们 将 标签 和 和 特征 向 量 转换 为 
LabeledPoint 实 例 ， 从 而 将 特征 向 量 存储 到 MLlib 的 Vector 中 。 


我 们 也 对 数据 进行 缓存 并 且 统 计数 据 样本 的 数目 : 


data.cache 
val numData = data.count 


可 以 看 到 numData 的 值 为 7395。 


在 对 数据 集 做 进一步 处 理 之 前 ,我们 发 现 数值 数据 中 包含 负 的 特征 值 。 我们 知道 , 朴素 贝 叶 
斯 模型 要 求 特征 值 非 负 ， 和 否则 碰 到 负 的 特征 值 程序 会 抛 出 错误 。 因 此 ， 需 要 为 朴素 贝 叶 斯 模型 构 
建 一 份 输入 特征 向 量 的 数据 ， 将 负 特 征 值 设 为 0: 


val nbData = records.map { r => 
val trimmed = r.map(_.replaceAll("™\"", "")) 
val label = trimmed(r.size - 1).toInt 
val features = trimmed.slice(4, r.size - 1).map(d => if (d == 
"?") 0.0 else d.toDouble) .map(d => if (d < 0) 0.0 else dd) 
LabeledPoint (label, Vectors.dense (features)) 


} 


5.3 ”训练 分 类 模型 


现在 我 们 已 经 从 数据 集中 提取 了 基本 的 特征 并 且 创 建 了 RDD， 接 下 来 开始 训练 各 种 模型 吧 。 
为 了 比较 不 同 模型 的 性 能 , 我 们 将 训练 逻辑 回归 、SVM、 朴 素 贝 叶 斯 和 决策 树 。 你 会 发 现 每 个 模 
型 的 训练 方法 几乎 一 样 ， 不 同 的 是 每 个 模型 都 有 着 自己 特定 可 配置 的 模型 参数 。MLlib 大 多 数 情 
况 下 会 设置 明确 的 默认 值 , 但 实际 上 , 最 好 的 参数 配置 需要 通过 评估 技术 来 选择 ,这 个 我 们 会 在 
后 续 章 节 中 进行 讨论 。 


在 Kaggle/StumbleUpon evergreen 的 分 类 数据 集中 训练 分 类 模型 


现在 可 以 对 输入 数据 应 用 MLlib 的 模型 。 首 先 ， 需 要 引入 必要 的 类 并 对 每 个 模型 配置 一 些 基 
本 的 输入 参数 。 其 中 ,需要 为 逻辑 回归 和 SVM 设 置 迭 代 次 数 ， 为 决策 树 设 置 最 大 树 深度 。 


import org.apache.spark.mllib.classification.LogisticRegressionWithSsGD 
import org.apache.spark.mllib.classification.SVMWithSGD 
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import org.apache.spark.mllib.classification.NaiveBayes 
import org.apache.spark.mllib.tree.DecisionTree 

import org.apache.spark.mllib.tree.configuration.Algo 
import org.apache.spark.mllib.tree.impurity.Entropy 

val numIterations = 10 
val maxTreeDepth = 5 


现在 ， 依 次 训练 每 个 模型 。 首 先 训练 逻辑 回归 模型 : 
val lrModel = LogisticRegressionWithSsGD.train(data, numIterations) 


你 将 看 到 如 下 输出 : 


14/12/06 13:41:47 INFO DAGScheduler: Job 81 finished: reduce at 
RDDFunctions.scala:112, took 0.011968 s 

14/12/06 13:41:47 INFO GradientDescent: GradientDescent. 

runMiniBatchSGD finished. Last 10 stochastic losses 0.6931471805599474, 
1196521.395699124, Infinity, 1861127.002201189, Infinity, 
2639638.049627607, Infinity, Infinity, Infinity, Infinity 

lrModel: org.apache.spark.mllib.classification.LogisticRegressionModel = 
(weights=[-0.11372778986947886,-0.511619752777837, 


接 下 来 ， 训 练 SVM 模 型 : 
val svmModel = SVMWithSGD.train(dqata，numIterations ) 


你 将 看 到 如 下 输出 : 


14/12/06 13:43:08 INFO DAGScheduler: Job 94 finished: reduce at 
RDDFunctions.scala:112, took 0.007192 s 

14/12/06 13:43:08 INFO GradientDescent: GradientDescent .runMiniBatchsGD 
finished. Last 10 stochastic losses 1.0, 2398226.619666797, 
2196192.9647478117, 3057987.2024311484, 271452.9038284356, 
3158131.191895948, 1041799.350498323, 1507522.941537049, 
1754560.9909073508, 136866.76745605646 

svmModel: org.apache.spark.mllib.classification.SVMModel] = (weigh 
ts=[-0.12218838697834929,-0.5275107581589767, 


接 下 来 训练 朴素 贝 叶 斯 ， 记 住 要 使 用 处 理 过 的 没有 负 特 征 值 的 数据 : 
val nbModel = NaiveBayes .train (nbData) 


输出 如 下 : 


I 


14/12/06 13:44:48 INFO DAGScheduler: Job 95 finished: collect at 
NaiveBayes.scala:120, took 0.441273 s 


nbModel: org.apache.spark.mllib.classification.NaiveBayesModel = org. 


apache.spark.mllib.classification.NaiveBayesModel@666ac612 
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和 Y A 
最 后 训练 决策 树 : 
val dtModel = DecisionTree.train(data, Algo.Classification, Entropy, maxTreeDepth) 


输出 如 下 : 


14/12/06 13:46:03 INFO DAGScheduler: Job 104 finished: collectAsMap at 
DecisionTree.scala:653, took 0.031338 s 


total: 0.343024 

findsplitsBins: 0.119499 

findBestSsplits: 0.200352 

ChooseSplits: 0.199705 
dtModel: org.apache.spark.mllib.tree.model.DecisionTreeModel] = 
DecisionTreeModel classifier of depth 5 with 61 nodes 


注意 ， 在 决策 树 中 ， 我 们 设置 模式 或 者 Algo 时 使 用 了 Entropy 不 纯度 估计 。 


5.4 使 用 分 类 模型 


现在 我 们 有 四 个 在 输入 标签 和 特征 下 训练 好 的 模型 ， 接 下 来 看 看 如 何 使 用 这 些 模型 进行 预 人 
测 。 目 前 ， 我 们 将 使 用 同样 的 训练 数据 来 解释 每 个 模型 的 预测 方法 。 


在 Kaggle/StumbleUpon evergreen 数 据 集 上 进行 预测 
这 里 以 逻辑 回归 模型 为 例 ( 其 他 模型 处 理 方法 类 似 ): 


val dataPoint = data.first 
val prediction = lrModel.predict (dataPoint.features) 


输出 如 下 : 
prediction: Double = 1.0 


可 以 看 到 对 于 训练 数据 中 第 一 个 样本 ， 模 型 预测 值 为 1， 即 长 久 。 让 我 们 来 检验 一 下 这 个 样 
真正 的 标签 : 


val trueLabel = dataPoint.label 


输出 如 下 : 


trueLabel: Double = 0.0 
可 以 看 到 ， 这 个 样 例 中 我 们 的 模型 预测 出 错 了 ! 
我 们 可 以 将 RDD[Vector] 整 体 作 为 输入 做 预测 : 
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val predictions = lrModel.predict (data.map(lp => lp.features)) 
predictions.take(5) 


输出 如 下 : 


Array[Double] = Array(1.0, 1.0, 1.0, 1.0, 1.0) 
5.5 评估 分 类 模型 的 性 能 
在 使 用 模型 做 预测 时 , 如 何 知 道 预 测 到 底 好 不 好 呢 ? 换 名 话说 , 应 该 知道 怎么 评估 模型 性 能 。 


通常 在 二 分 类 中 使 用 的 评估 方法 包括 : 预测 正确 率 和 错误 率 、 准 确 率 和 召回 率 、 准 确 率 -召回 率 
曲线 下 方 的 面积 、ROC 曲 线 、ROC 曲 线 下 的 面积 和 F-Measure。 


5.5.1 预测 的 正确 率 和 错误 率 


在 二 分 类 中 , 预测 正确 率 可 能 是 最 简单 评测 方式 , 正确 率 等 于 训练 样本 中 被 正确 分 类 的 数目 
除 以 总 样本 数 。 类 似 地 ， 错 误 率 等 于 训练 样本 中 被 错误 分 类 的 样本 数目 除 以 总 样本 数 。 

我 们 通过 对 输入 特征 进行 预测 并 将 预测 值 与 实际 标签 进行 比较 , 计算 出 模型 在 训练 数据 上 的 
正确 率 。 将 对 正确 分 类 的 样本 数目 求 和 并 除 以 样本 总 数 ， 得 到 平均 分 类 正确 率 : 


val lrTotalCorrect = data.map { point => 


if (lrModel.predict (point.features) == point.label) 1 else 0 
} .sum 
val lrAccuracy = lrTotalCorrect / data.count 
输出 如 下 : 


lrAccuracy: Double = 0.5146720757268425 


我 们 得 到 了 51.5% 的 正确 率 ， 结 果 看 起 来 不 是 很 好 。 我 们 的 模型 仅仅 预测 对 了 一 半 的 训练 数 
据 ， 和 随机 猜测 差不多 。 


注意 模型 预测 的 值 并 不 是 恰好 为 1 或 0。 预测 的 输出 通常 是 实数 ,然后 必须 转 
换 为 预测 类 别 。 这 是 通过 在 分 类 器 决策 函数 或 打分 函数 中 使 用 阅 值 来 实现 的 。 
2 比如 二 分 类 的 逻辑 回归 这 个 概率 模型 会 在 打分 函数 中 返回 类 别 为 1 的 估计 概 
率 。 因 此 典型 的 决策 阀 值 是 0.5。 于 是 ， 如 果 类 别 1 的 概率 估计 超过 50%， 这 个 模 
型 会 将 样本 标记 为 类 别 1， 否 则 标记 为 类 别 0。 
在 一 些 模型 中 , 阀 值 本 身 其 实 也 可 以 作为 模型 参数 进行 调 优 。 接 下 来 我 们 将 
看 到 阅 值 在 评估 方法 中 也 是 很 重要 的 。 


其 他 模型 如 何 呢 ? 让 我 们 来 计算 其 他 三 个 模型 的 正确 率 ; 
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val svmTotalCorrect = data.map { point => 


if (svmModel.predict (point.features) == point.label) 1 else 0 
} .sum 
val nbTotalCorrect = nbData.map { Point => 

if (npbModel.predict (point.features) == point.label) 1 else 0 
} .sum 


注意 ， 决 策 树 的 预测 阔 值 需要 明确 给 出 ， 如 下 面 加 粗 部 分 所 示 : 


val dtTotalCorrect = data.map { point => 
val score = dtModel .predict (point.features) 
val predicted = if (score > 0.5) 1 else 0 


if (predicted == point.label) 1 else 0 
} .Sum 
现在 来 看 看 其 他 三 个 模型 的 正确 率 。 
首先 是 SVM 模型 ; 


Val svmAccuracy = svmTotalCorrect / numData 
SVM 模 型 预测 输出 如 下 : 
svmAccuracy: Double = 0.5146720757268425 


接着 是 朴素 贝 叶 斯 模型 : 


val nbaccuracy = nbTotalCorrect / numpata 
朴素 贝 叶 斯 模型 输出 如 下 : 

nbAccuracy: Double = 0.5803921568627451 
最 后 ， 让 我 们 来 计算 决策 树 的 正确 率 : 

val ataccuracy = dtTotalCorrect / numpata 
决策 树 的 输出 如 下 : 

dtAccuracy: Double = 0.6482758620689655 


对 比 发 现 , SYVM 和 朴素 贝 叶 斯 模型 性 能 都 较 差 , 而 决策 树 模型 正确 率 达 65%, 但 还 不 是 很 高 。 


5.5.2 ”准确 率 和 召回 率 
在 信息 检索 中 ,准确 率 通常 用 于 评价 结果 的 质量 ， 而 召回 率 用 来 评价 结果 的 完整 性 。 


在 二 分 类 问题 中 , 准确 率 定义 为 真 阳 性 的 数目 除 以 真 阳 性 和 假 阳 性 的 总 数 , 其 中 真 阳性 是 指 
被 正确 预测 的 类 别 为 1 的 样本 , 假 阳 性 是 错误 预测 为 类 别 1 的 样本 。 如 果 每 个 被 分 类 器 预测 为 类 别 
1 的 样本 确实 属于 类 别 1， 那 准确 率 达 到 100%。 
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召回 率 定义 为 真 阳 性 的 数目 除 以 真 阳性 和 假 阴 性 的 和 ， 其 中 假 阴 性 是 类 别 为 1 却 被 预测 为 0 
的 样本 。 如 果 任 何 一 个 类 型 为 1 的 样本 没有 被 错误 预测 为 类 别 0( 即 没 有 假 阴性 )， 那 召回 率 达 到 
100%。 


通常 ,准确 率 和 召回 率 是 负 相 关 的 , 高 准确 率 常常 对 应 低 召 回 率 , 反之 亦 然 。 为 了 说 明 这 点 ， 
假定 我 们 训练 了 一 个 模型 的 预测 输出 永远 是 类 别 1。 因 为 总 是 预测 输出 类 别 1， 所 以 模型 预测 结果 
不 会 出 现 假 阴性 , 这 样 也 不 会 错过 任何 类 别 1 的 样本 。 于 是 ,得 到 模型 的 召回 率 是 1.0。 另 一 方面 ， 
假 阳 性 会 非常 高 ， 意 味 着 准确 率 非常 低 〈 这 依赖 各 个 类 别 在 数据 集中 确切 的 分 布 情况 )。 


准确 率 和 召回 率 在 单独 度量 时 用 处 不 大 , 但 是 它们 通常 会 被 一 起 组 成 聚合 或 者 平均 度量 。 二 
者 同时 也 依赖 于 模型 中 选择 的 阔 值 。 


直觉 上 来 讲 ， 当 阔 值 低 于 某 个 程度 ， 模 型 的 预测 结果 永远 会 是 类 别 1。 因 此 ， 模 型 的 召回 率 
为 1， 但 是 准确 率 很 可 能 很 低 。 相 反 ， 当 阔 值 足够 大 ,模型 的 预测 结果 永远 会 是 类 别 0。 此 时 ， 模 
型 的 召回 率 为 0， 但 是 因为 模型 不 能 预测 任何 真 阳性 的 样本 ， 很 可 能 会 有 很 多 的 假 阴 性 样本 。 不 
仅 如 此 ， 因 为 这 种 情况 下 真 阳性 和 假 阳性 为 0， 所 以 无 法 定义 模型 的 准确 率 。 

图 5-8 所 示 的 准确 率 -召回 率 ( PR ) 曲线 ， 表 示 给 定 模 型 随 着 决策 阔 值 的 改变 ， 准 确 率 和 召回 
率 的 对 应 关系 。PR 曲 线 下 的 面积 为 平均 准确 率 。 直 觉 上 ,PR 曲线 下 的 面积 为 1 等 价 于 一 个 完美 模 
型 ， 其 准确 率 和 召回 率 达 到 100%。 


准确 率 - 召 回 率 曲线 (曲线 下 的 面积 为 0.69) 


准确 率 


图 5-8 ”准确 率 - 召 回 率 曲线 
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yy 更 多 关于 准确 率 、 召 回 率 和 PR 曲线 下 面积 的 资料 ,请 查阅 :http:/en.wikipedia. 
org/wiki/Precision and recall 和 http://en.wikipedia.org/wiki/Average precision#Average 
precision。 


5.5.3 ROC 曲线 和 AUC 
ROC 遇 线 在 概念 上 和 PR 曲线 类 似 ， 它 是 对 分 类 器 的 真 阳 性 率 - 假 阳 性 率 的 图 形 化 解释 。 


真 阳性 率 (TPR ) 是 真 阳 性 的 样本 数 除 以 真 阳 性 和 假 阴 性 的 样本 数 之 和 。 换 名 话说 ，TPR 是 
真 阳性 数目 占 所 有 正 样 本 的 比例 。 这 和 之 前 提 到 的 召回 率 类 似 ， 通常 也 称 为 敏感 度 。 


假 虽 性 率 ( FPR ) 是 假 阳 性 的 样本 数 除 以 假 阳 性 和 真 明 性 的 样本 数 之 和 。 换 名 话说 ，FPR 是 
假 阳 性 样本 数 占 所 有 人 负 样本 总 数 的 比例 。 


和 准确 率 和 召回 率 类 似 , ROC 曲 线 ( 图 5-9 ) 表示 了 分 类 器 性 能 在 不 同 决策 阔 值 上 TPR 对 FPR 
的 折衷 。 曲 线 上 每 个 点 代表 分 类 需 决 策 函 数 中 不 同 的 阔 值 。 


ROC 曲 线 (曲线 下 的 面积 为 0.70) 


一 假 阳性 率 


图 5-9” ROC 曲线 


ROC 下 的 面积 ( 通常 称 作 AUC ) 表示 平均 值 。 同 样 ，AUC 为 1.0 时 表示 一 个 完美 的 分 类 器 ， 
0.5 则 表示 一 个 随机 的 性 能 。 于 是 ， 一 个 模型 的 AUC 为 0.5 时 和 随机 猜测 效果 一 样 。 
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因为 PR 网线 下 的 面积 和 ROC 由 线 下 的 面积 经 入 归 一 化 ( 芝 小 值 为 0 最 大 人 
KW 为 1 ), 我 们 可 以 用 这 些 度量 方法 比较 不 同 参 数 配置 下 的 模型 ， 甚 至 可 以 比较 完 
不 同 的 模型 。 这 两 个 方法 在 模型 评估 和 选择 上 也 很 常用 。 


MLlib 内 置 了 一 系列 方法 用 来 计算 二 分 类 的 PR 和 ROC 曲 线 下 的 面积 。 下 面 我 们 针对 每 一 个 模 
型 来 计算 这 些 指标 : 


import 
org.apache.spark.mllib.evaluation.BinaryClassificationMetrics 
val metrics = Segq(lrModel, svmModel) .map { model => 

val scoreAndLabels = data.map { point => 

(model .predict (point.features), point.label) 

} 

val metrics = 

(model .getClass.getSimpleName, 


} 
我 们 之 前 已 经 训练 朴素 贝 叶 斯 模型 并 计算 准确 率 ， 其 中 使 用 的 数据 集 是 nbData 版 本 ， 这 里 
用 同样 的 数据 集 计 算 分 类 的 结果 。 


val nbMetrics = Seq(nbModel) .map{ model => 
val scoreAndLabels = nbData.map { point => 
val Score = model.predict (point.features) 
(if (Score > 0.5) 1.0 else 0.0, point.label) 


new BinaryClassificationMetrics (ScoreAndLabels) 
metrics.areaUnderPR, metrics.areaUnderROC) 


ly 


} 


val metrics = new BinaryClassificationMetrics(scoreAndLabels) 
(model .getClass.getSimpleName, metrics.areaUnderPR, 
metrics.areaUnderROC) 


} 
因为 DecisionTreeModel 模 型 没有 实现 其 他 三 个 模型 都 有 的 classificationModel 接 
口 ， 因 此 我 们 需要 单独 为 这 个 模型 编写 如 下 代码 计算 结 
val dtMetrics = Seq(dtModel) .map{ model => 
val scoreAndLabels = data.map { point => 


val Score = model.predict (point.features) 
(if (Score > 0.5) 1.0 else 0.0, point.label) 


} 
val metrics = 
(model .getClass.getSimpleName, 


} 


val allMetrics = metrics ++ nbMetrics ++ dtMetrics 


allMetrics.foreach{ case (m, pr, roc) => 
printlin(f"s$m, Area under PR: S$S{pr * 100.0}%2.4f%%, Area under 


ROC: S${roc * 100.0}%2.4f%%") 
} 


你 的 输出 应 该 类 似 如 下 : 


new BinaryClassificationMetrics(scoreAndLabels) 
metrics.areaUnderPR, metrics.areaUnderROC) 
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LogisticRegressionModel, Area under PR: 75.6759%, Area under ROC: 
50.1418% 

SVMModel, Area under PR: 75.6759%, Area under ROC: 50.1418% 
NaiveBayesModel, Area under PR: 68.0851%, Area under ROC: 58.3559% 
DecisionTreeModel, Area under PR: 74.3081%, Area under ROC: 64.8837% 


我 们 可 以 看 到 所 有 模型 得 到 的 平均 准确 率 差不多 。 

逻辑 回归 和 SVM 的 AUC 的 结果 在 0.5 左 右 ， 表 明 这 两 个 模型 并 不 比 随 机 好 。 朴 素 贝 叶 斯 模型 
和 决策 树 模 型 性 能 稍微 好 些 ，AUC 分 别 是 0.58 和 0.65。 但 是 ， 在 二 分 类 问题 上 这 个 性 能 并 不 是 非 
常 好 。 


这 里 我 们 没有 讨论 多 类 别 分 类 问题 ，MLlib 提 供 了 一 个 类 似 的 计算 性 能 的 类 
~> MulticlassMetrics， 其 中 提供 了 许多 常见 的 度量 方法 。 


5.6 ”改进 模型 性 能 以 及 参数 调 优 
到 底 哪里 出 错 了 呢 ? 为 什么 我 们 的 模型 如 此 复杂 却 只 得 到 比 随机 稍 好 的 结果 ?我 们 的 模型 
哪里 存在 问题 ? 


想 想 看 , 我 们 只 是 简单 地 把 原始 数据 送 进 了 模型 做 训练 。 事实 上 ,我们 并 没有 把 所 有 数据 用 
在 模型 中 ， 只 是 用 了 其 中 易 用 的 数值 部 分 。 同 时 ,我们 也 没有 对 这 些 数值 特征 做 太 多 分 析 。 


5.6.1 ”特征 标准 化 

我 们 使 用 的 许多 模型 对 输入 数据 的 分 布 和 规模 有 着 一 些 固 有 的 假设 , 其 中 最 常见 的 假设 形式 
是 特征 满足 正 态 分 布 。 下 面 让 我 们 进一步 研究 特征 是 如 何 分 布 的 。 

具体 做 法 ,我 们 先 将 特征 向 量 用 RowMatrix 类 表示 成 MLlib 中 的 分 布 矩 阵 。RowMatrix 是 一 
个 由 向 量 组 成 的 RDD， 其 中 每 个 向 量 是 分 布 矩 阵 的 一 行 。 

RowMatzix 类 中 有 一 些 方便 操作 和 气 阵 的 方法 ， 其 中 一 个 方法 可 以 计算 矩阵 每 列 的 统计 特性 : 

import org.apache.spark.mllipb.linalg.distributed.RowMatrix 

val vectors = data.map(lp => lp.features) 


val matrix = new RowMatrix(vectors) 
val matrixSummary = matrix.computeColumnSummaryStatistics!() 


下 面 的 代码 可 以 输出 矩阵 每 列 的 均值 :; 
println(matrixSummary .mean) 
输出 结果 : 


[0.41225805299526636,2.761823191986623,0.46823047328614004,， ... 
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下 面 的 代码 输出 和 矩阵 每 列 的 最 小 值 : 


println(matrixSummary .min) 
输出 结果 : 
[0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.045564223,-1.0,， ... 


下 面 的 代码 输出 矩阵 每 列 的 最 大 值 : 


p 


输出 结果 : 


[ 


rintln(matrixSummary .max) 


0.999426,363.0,1.0,1.0,0.980392157,0.980392157,21.0,0.25,0.0,0.444444444, ... 


下 面 代码 输出 矩阵 每 列 的 方差 : 


p 


rintln(matrixSummary .variance) 


输出 为 : 


[ 


0.1097424416755897,74.30082476809638,0.04126316989120246,， ... 


下 面 代码 输出 矩阵 每 列 中 非 0 项 的 数目 : 


p 


rintln(matrixSummary .numNonzeros) 


输出 为 : 


[ 


5053.0,7354.0,7172.0,6821.0,6160.0,5128.0,7350.0,1257.0,0.0，... 


computeColumnSummaryStatistics 方 法 计算 寺 征 矩阵 每 列 的 不 同 统 计数 据 , 包括 均值 
和 方差 ， 所 有 统计 值 按 每 列 一 项 的 方式 存储 在 一 个 vector 中 (在 我 们 的 例子 中 每 个 特征 对 应 


一 项 ) 


O 


观察 前 面 对 均 值 和 方差 的 输出 ,可 以 清晰 发 现 第 二 个 特征 的 方差 和 均值 比 其 他 的 都 要 高 ( 你 
会 发 现 一 些 其 他 特征 也 有 类 似 的 结果 , 而 且 有 些 特征 更 加 极端 )。 因 为 我 们 的 数据 在 原始 形式 下 ， 
确切 地 说 并 不 符合 标准 的 高 斯 分 布 。 为 使 数据 更 符合 模型 的 假设 ， 可 以 对 每 个 特征 进行 标准 化 ， 
使 得 每 个 特征 是 0 均值 和 单位 标准 差 。 具 体 做 法 是 对 每 个 特征 值 减 去 列 的 均值 ， 然 后 除 以 列 的 标 
准 差 以 进行 缩放 : 


(x—1)/ sqrt(variance) 


实际 上 , 我 们 可 以 对 数据 集中 每 个 特征 向 量 , 与 均值 向 量 按 项 依次 做 减法 ,然后 依次 按 项 除 


以 特 和 


FE 的 标准 差 向 量 。 标 准 差 向 量 可 以 由 方差 向 量 的 每 项 求 平方 根 得 到 。 


正如 我 们 在 第 3 章 提 到 的 , 可 以 使 用 Spark 的 standardqscaletr 中 的 方法 方便 地 完成 这 些 操作 。 
Standardscaler 工 作 方 式 和 第 3 章 的 Normalizer 特 征 有 很 多 类 似 的 地 方 。 为 了 说 清楚 , 我 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


5.6 ”改进 模型 性 能 以 及 参数 调 优 103 


们 传人 两 个 参数 ,一 个 表示 是 否 从 数据 中 减 去 均值 ， 男 一 个 表示 是 否 应 用 标准 差 缩 放 。 这 样 使 得 
standardscaler 和 我 们 的 输入 向 量 相 符 。 最 后 , 将 输入 向 量 传 到 转换 函数 ,并 且 返 回归 一 化 的 
向 量 。 具 体 实现 代码 如 下 ， 我 们 使 用 map 函 数 来 保留 数据 集 的 标签 : 


import org.apache.spark.mllib.feature.StandardScaler 

val scaler = new StandardScaler (withMean = true, withstd = true) .fit(vectors) 
val scaledData = data.map (lp => LabeledPoint (lp.label, 
scaler.transform(lp.features))) 


现在 我 们 的 数据 被 标准 化 后 ,观察 第 一 行 标准 化 前 和 标准 化 后 的 向 量 , 下 面 输出 第 一 行 标 准 
化 前 的 特征 向 量 : 
println(data.first.features) 


结果 如 下 : 


[0.789131,2.055555556,0.676470588,0.205882353, 
下 面 输出 第 一 行 标 准 化 后 的 特征 向 量 : 
println(scaledData.first.features) 


结果 如 下 : 


[1.1376439023494747,-0.08193556218743517,1.025134766284205,-0.0558631837375738, 


可 以 看 出 , 第 一 个 特征 已 经 应 用 标准 差 公式 被 转换 了 。 为 确认 这 一 点 ,可 以 让 第 一 个 特征 减 
去 其 均值 ， 然 后 除 以 标准 差 ( 方差 的 平方 根 ): 


println((0.789131 - 0.41225805299526636)/ math. 
sqrt (0.1097424416755897)) 


输出 结果 应 该 等 于 上 面向 量 的 第 一 个 元 素 : 
1.137647336497682 


现在 我 们 使 用 标准 化 的 数据 重新 训练 模型 。 这 里 只 训练 逻辑 回归 ( 因为 决策 树 和 朴素 贝 叶 斯 
不 受 特征 标准 话 的 影响 )， 并 说 明 特 征 标 准 化 的 影响 : 


val lrModelScaled = LogisticRegressionWithSGD.train(scaledData, numIterations) 
val lrTotalCorrectScaled = scaledData.map { point => 

if (lrModelScaled.predict (point.features) == point.label) 1 else 0 

} .sum 
val lrAccuracyScaled = lrTotalCorrectScaled / numData 
val lrPredictionsVsTrue = scaledData.map { point => 
(lrModelScaled.predict (point.features), point.label) 


val lrMetricsScaled = new BinaryClassificationMetrics(lrPredictionsVsTrue) 
val lrPr = lrMetricsScaled.areaUnderPR 

val lrRoc = lrMetricsScaled.areaUnderROC 
println(f"s{lrModelScaled.getClass.getSimpleName} \nAccuracy: 
$s{lrAccuracyScaled * 100}%2.4f%%\nArea under PR: S$S{l1rPpr * 
100.0}%2.4f%%\nArea under ROC: S${lrRoc * 100.0}%2.4f%%") 
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计算 结果 类 似 如 下 : 


LogisticRegressionModel 

Accuracy: 62.0419% 

Area under PR: 72.7254% 

Area under ROC: 61.9663% 


从 结果 可 以 看 出 ,通过 简单 对 特征 标准 化 , 就 提高 了 逻辑 回归 的 准确 率 , 并 将 AUC 从 随机 5S0% 
提升 到 62% 。 


5.6.2 ”其 他 特征 


我 们 已 经 看 到 , 需要 注意 对 特征 进行 标准 和 归 一 化 ,这 对 模型 性 能 可 能 有 重要 影响 。 在 这 个 
示例 中 ,我 们 仅仅 使 用 了 部 分 特征 ， 却 完全 忽略 了 类 别 ( category ) 变量 和 样板 boilerplate ) 列 
的 文本 内 容 。 

这 样 做 是 为 了 便于 介绍 。 现 在 我 们 再 来 评估 一 下 添加 其 他 特征 , 比如 类 别 特征 对 性 能 的 影响 。 


首先 , 我 们 查看 所 有 类 别 , 并 对 每 个 类 别 做 一 个 索引 的 映射 这 里 索引 可 以 用 于 类 别 特征 做 
1-of-k 编 码 O 


val categories = records.map(r => r(3)) .distinct.collect.zipWithIindex.toMap 


val numCategories = categories.size 
println(categories) 
3 > 人、 
不 同 的 类 别 输出 如 下 : 
Map("weather" -> 0, "sports" -> 6, "unknown" -> 4, "computer internet" -> 


12，"?" -> 11, "culture politics" -> 3, "religion" -> 8, "recreation" -> 
2, "arts_ entertainment" -> 9, "health" -> 5, "law crime" -> 10, "gaming" 
-> 13, "business" -> 1, "science technology" -> 7) 


下 面 的 代码 会 计算 出 类 别 的 数目 : 
println (numCategories) 
输出 如 下 : 


14 


因此 ， 我 们 需要 创建 一 个 长 为 14 的 向 量 来 表示 类 别 特征 ， 然 后 根据 每 个 样本 所 属 类 别 索引 ， 
对 相应 的 维度 赋值 为 1， 其 他 为 0。 我 们 假定 这 个 新 的 特征 向 量 和 其 他 的 数值 特征 向 量 一 样 : 


val dataCategories = records.map { r => 
val trimmed = r.map(_.replaceAll("™\"", "")) 
val label = trimmed(r.size - 1).toInt 
val categoryIdx = categories(r(3)) 
val categoryFeatures = Array.ofDim[Doublel] (numCategories) 
CategoryFeatures (categoryIdx) = 1.0 
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val otherFeatures = trimmed.slice(4, r.size - 1).map(d => if 
(d == "?") 0.0 else d.toDouble) 
val features = categoryFeatures ++ otherFeatures 
LabeledPoint (label, Vectors.dense (features)) 

} 


println(dataCategories.first) 
你 应 该 可 以 看 到 如 下 输出 ,其 中 第 一 部 分 是 一 个 14 维 的 向 量 , 向量 中 类 别 对 应 索引 那 一 维 为 1。 


LabeledPoint (0.0, [0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.789131,2.055555556,0.676470588,0.205882353,0.047058824,0.023529412,0. 
443783175,0.0,0.0,0.09077381,0.0,0.245831182,0.003883495,1.0,1.0,24.0,0.0 
:5424.0,170.0,8.0,0.152941176,0.079129575]) 


同样 ， 因 为 我 们 的 原始 数据 没有 标准 化 ， 所 以 在 训练 这 个 扩展 数据 集 之 前 ， 应 该 使 用 同样 的 
standardScaler 方 法 对 其 进行 标准 化 转换 : 


val scalerCats = new StandardScaler (withMean = true, withSstd = true). 
fit(dataCategories.map (lp => lp.features)) 

val scaledDataCats = dataCategories.map (lp => 

LabeledPoint (lp.label, scalerCats.transform(lp.features))) 


可 以 使 用 如 下 代码 看 到 标准 化 之 前 的 特征 : 


T 


println(dataCategories.first.features) 
输出 结果 如 下 : 
0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.789131,2.055555556 ... 


可 以 使 用 如 下 代码 看 到 标准 化 之 后 的 特征 : 


T 


println(scaledDataCats.first.features) 
输出 如 下 : 


[-0.023261105535492967,2.720728254208072,-0.4464200056407091, 
-0.2205258360869135, 


虽然 原始 特征 是 稀 足 的 ( 大 部 分 维度 是 0 ), 但 对 每 个 项 减 去 均值 之 后 , 将 得 
到 一 个 非 稀世 (稠密 ) 的 特征 向 量 表示 ， 如 上 面 的 例子 所 示 。 
S 数据 规模 比较 小 的 时 候 , 稀疏 的 特征 不 会 产生 问题 , 但 实践 中 往往 大 规模 数 
Q 据 是 非常 稀疏 的 (比如 在 线 广告 和 文本 分 类 )。 此 时 ,不 建议 丢失 数据 的 稀疏 性 ， 
因为 相应 的 稠密 表示 所 需要 的 内 存 和 计算 量 将 爆炸 性 增长 。 这 时 我 们 可 以 将 
StandardScaler 的 withMean 设 置 为 false 来 避免 这 个 问题 。 


现在 ， 可 以 用 扩展 后 的 特征 来 训练 新 的 逻辑 回归 模型 了 ， 然 后 我 们 再 评估 其 性 能 : 
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val lrModelScaledCats = LogisticRegressionWithSsSGD.train(scaledDataCats, 


numIterations) 
val lrTotalCorrectScaledCats = scaledDataCats.map { point => 

if (lrModelScaledCats.predict (point.features) == point.label) 1 else 0 
} .Sum 


val lrAccuracyScaledCats = lrTotalCorrectScaledCats / numData 

val lrPredictionsVsTrueCats = scaledDataCats.map { point => 
(lrModelScaledCats.predict (point.features), point.label) 

} 

val lrMetricsScaledCats = new BinaryClassificationMetrics (lrPredictionsVsTrueCats) 

val lrPprCats = lrMetricsScaledCats.areaUnderPR 

val lrRocCats = lrMetricsScaledCats.areaUnderROC 

println(f"$s{lrModelScaledCats.getClass.getSimpleName} \nAccuracy: 

Ss{lrAccuracyScaledCats * 100}%2.4f%%\nArea under PR: S${lrPprCats * 

100.0}%2.4f%%\nArea under ROC: S${lrRocCats * 100.0}%2.4f%%") 


你 应 该 可 以 看 到 类 似 如 下 的 输出 : 


LogisticRegressionModel 

Accuracy: 66.5720% 

Area under PR: 75.7964% 

Area under ROC: 66.5483% 


通过 对 数据 的 特征 标准 化 ， 模 型 准确 率 得 到 提升 ,将 AUC 从 50% 提 高 到 62%。 之 后 ， 通 过 添 
加 类 别 特征 ， 模 型 性 能 进一步 提升 到 66% ( 其 中 新 添加 的 特征 也 做 了 标准 化 操作 )。 


竞赛 中 性 能 最 好 模型 的 AUC 为 0.889 06 ( http:/www.kaggle.com/c/stumbleupon/ 
leaderboard/private )。 

另 一 个 性 能 几乎 差不多 高 的 在 这 里 : http://www.kaggle.com/c/stumbleupon/ 
forums/t/5680/beating-the-benchmark- leaderboard-auc-0-878 。 

CN i ne od a 特别 是 样板 变量 中 的 文本 特征 。 
> J 能 突出 的 模型 主要 使 用 了 样板 特征 以 及 基于 文本 内 容 的 特征 来 提升 性 

。 从 前 be 实验 可 以 看 出 , 添加 了 类 别 特征 提升 性 能 之 后 ,大 部 分 变量 用 于 预 

测 者 是 没有 用 的 ， 但 是 文本 内 容 预 测 能 力 很 强 。 
通过 对 比赛 中 获得 最 好 性 能 的 方法 进行 学 习 , 可 以 得 到 一 些 很 好 的 启发 ， 比 

如 特征 提取 和 特征 工程 对 模型 性 能 提升 很 重要 。 


5.6.3 ”使 用 正确 的 数据 格式 


模型 性 能 的 另外 一 个 关键 部 分 是 对 每 个 模型 使 用 正确 的 数据 格式 。 前 面 对 数 值 向 量 应 用 朴素 

贝 叶 斯 模型 得 到 了 非常 差 的 结果 ， 这 难道 是 模型 自身 的 缺陷 ? 

在 这 里 ， 我 们 知道 MLlib 实 现 了 多 项 式 模型 ， 并 且 该 模型 可 以 处 理 计数 形式 的 数据 。 这 包 
括 二 元 表示 的 类 型 特征 〈 比如 前 面 提 到 的 1-of-k 表 示 ) 或 者 频率 数据 〈 比如 一 个 文档 中 单词 出 
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现 的 频率 )。 我 开始 时 使 用 的 数值 特征 并 不 符合 假定 的 输入 分 布 ， 所 以 模型 性 能 不 好 也 并 不 是 
意料 之 外 。 


为 了 更 好 地 说 明 , 我 们 仅仅 使 用 类 型 特征 ， 而 1-of-k 编 码 的 类 型 特征 更 符合 朴素 贝 叶 斯 模型 ， 
我 们 用 如 下 代码 构建 数据 集 : 


val dataNB = records.map { r => 
val trimmed = r.map(_.replaceAll("™\"", "")) 
val label = trimmed(r.size - 1).toInt 
val categoryIdx = categories(r(3)) 
val categoryFeatures = Array.ofDim[Double] (numCategories) 
CategoryFeatures (categoryIdx) = 1.0 
LabeledPoint (label, Vectors.dense(categoryFeatures)) 


} 
接 下 来 ， 我 们 重新 训练 朴素 贝 叶 斯 模型 并 对 它 的 性 能 进行 评 佑 : 


val nbModelCats = NaiveBayes.train (dataNB) 

val nbTotalCorrectCats = dataNB.map { point => 

if (npbModelCats.predict (point.features) == point.label) 1 else 0 
} .sum 

val nbAccuracyCats = nbTotalCorrectCats / numData 

val nbPredictionsVsTrueCats = dataNB.map { point => 
(nbModelCats.predict (point.features), point.label) 


val nbMetricsCats = new BinaryClassificationMetrics (nbPpredictionsVsTrueCats) 
val nbPrCats = nbMetricsCats.areaUnderPR 

val nbRocCats = nbMetricsCats.areaUnderROC 
println(f"s{nbModelCats.getClass.getSimpleName} \nAccuracy: 

$s{nbAccuracyCats * 100}%2.4f%%$\nArea under PR: S${nbPrCats * 
100.0}%$2.4f%%\nArea under ROC: S${nbRocCats * 100.0}%2.4f%%") 


计算 结果 如 下 : 


NaiveBayesModel 
Accuracy: 60.9601% 

Area under PR: 74.0522% 
Area under ROC: 60.5138% 


可 见 ， 使 用 格式 正确 的 输入 数据 后 ， 朴 素 贝 叶 斯 的 ' 


en 


生 能 从 58% 提 高 到 了 60%。 


5.6.4 ”模型 参数 调 优 
前 几 节 展示 了 模型 性 能 的 影响 因素 : 特征 提取 、 特 征 选择 、 输 入 数据 的 格式 和 模型 对 数据 分 
布 的 假设 ,但 是 到 目前 为 止 , 我 们 对 模型 参数 的 讨论 只 是 一 笔 带 过 ,而 实际 上 它 对 于 模型 性 能 影 
响 很 大 。 
MLlib 默 认 的 train 方 法 对 每 个 模型 的 参数 都 使 用 默认 值 。 接 下 来 让 我 们 深入 了 解 一 下 这 些 
数 。 


Wp 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


108 第 5 章 Spark 构建 分 类 模型 


1. 线性 模型 


逻辑 回归 和 SVM 模 型 有 相同 的 参数 , 原因 是 它们 都 使 用 随机 梯度 下 降 (SGD ) 作为 基础 优化 
技术 。 不 同 点 在 于 二 者 采用 的 损失 1 。MLlib 中 关于 逻辑 回归 类 的 定义 如 下 : 


class LogisticRegressionWithSGD private ( 
private var stepSize: Double, 
private Var numIterations: Int, 
private var regParam: Double, 
private Var miniBatchFraction: Double) 
extends GeneralizedLinearAlgorithm[LogisticRegressionModel] 


可 以 看 到 ， 人 、numIterations、 regParam 和 miniBatchFraction 能 通过 参数 


传递 到 构造 函数 中 。 这 些 变量 中 除了 regParam 以 外 都 和 基本 的 优化 技术 相关 。 


下 面 是 逻辑 回归 实例 化 的 代码 ， 代码 初始 化 了 Graaient、 Updater 和 Optimizer， 以 及 
optimizer 相 关 的 参数 ( 这 里 是 cradientDescent ): 


private val gradient = new LogisticGradient() 
private val updater = new SimpleUpdater() 
override val optimizer = new GradientDescent (gradient, updater) 
.SetStepSize(stepSize) 
.SetNumIterations (numIterations) 
.SetRegParam (regParam) 
.SetMiniBatchFraction (miniBatchFraction) 


LogisticGradient 建 立 了 定义 逻辑 回归 模型 的 逻辑 损失 函数 。 


对 优化 技巧 的 详细 描述 已 经 超出 本 书 的 范围 ，MLlib 为 线性 模型 提供 了 两 个 

了 优化 技术 : SGD 和 L-BFGS。L-BFGS 通 常 来 说 更 精确 ， 要 调 的 参数 较 少 。 
QQ SGD 是 所 有 模型 默认 的 优化 技术 ， 而 L-BGFS 只 有 如 辑 回 归 在 Logistic- 
Regression WithLBFGS 中 使 用 。 你 可 以 动手 实现 并 比较 一 下 二 者 的 不 同 。 更 

多 细节 可 以 访问 http://spark.apache.org/docs/latest/mllib-optimization.html。 


Sd 
二 
oO 


为 了 研究 其 他 参数 的 影响 ,我 们 需要 创建 一 个 辅助 函数 在 给 定 参数 之 后 训练 逻辑 回归 模型 
首先 需要 引入 必要 的 类 : 


import org.apache.spark.rdd.RDD 

import org.apache.spark.mllib.optimization.Updater 

import org.apache.spark.mllib.optimization.SimpleUpdater 

import org.apache.spark.mllib.optimization.LiUpdater 

import org.apache.spark.mllib.optimization.SquaredL2Updater 
import org.apache.spark.mllib.classification.ClassificationModel 


然后 ， 定 义 辅助 函数 ， 根 据 给 定 输入 训练 模型 . 


def trainWithParams (input: RDD[LabeledPoint], regParam: Double, 
numIterations: Int, updater: Updater, stepSize: Double) = { 
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val lr = new LogisticRegressionWithSGD 
lr.optimizer.setNumIterations (numIterations). 

setUpdater (updater) .setRegParam(regParam) .setStepSize(stepSize) 
lr.run(input) 


} 
最 后 ， 我 们 定义 第 二 个 辅助 函数 并 根据 输入 数据 和 分 类 模型 ,计算 相关 的 AUC: 


def createMetrics (label: String, data: RDD[LabeledPoint], model: 


ClassificationModel) = { 
val scoreAndLabels = data.map { point => 
(model .predict (point.features), point.label) 


} 


val metrics = new BinaryClassificationMetrics(scoreAndLabels) 
(label, metrics.areaUnderROC) 


} 
为 了 加 快 多 次 模型 训练 的 速度 ， 可 以 缓存 标准 化 的 数据 ( 包括 类 别 信息 ): 


scaledDataCats.cache 

(1) 迷 代 

大 多 数 机 器 学 习 的 方法 需要 迭代 训练 , 并 且 经 过 一 定 次 数 的 迭代 之 后 收敛 到 某 个 解 ( 即 最 小 
化 损失 函数 时 的 最 优 权重 向 量 )。SGD 收 敛 到 合适 的 解 需要 迭代 的 次 数 相 对 较 少 ， 但 是 要 进一步 
提升 性 能 则 需要 更 多 次 授 代 。 为 方便 解释 ， 这 里 设置 不 同 的 迭代 次 数 numIterations， 然 后 比 
较 AUC 结 果 : 


val iterResults = Seq(l1l, 5, 10, 50) .map { param => 
val model = trainWithParams (scaledDataCats, 0.0, param, new 


SimpleUpdater, 1.0) 
createMetrics(s"S$param iterations", scaledDataCats, model) 


} 
iterResults.foreach { case (param, auc) => println(f"s$param, AUC = 


$s{auc * 100}%2.2f%%") } 


应 该 可 以 看 到 类 似 如 下 的 输出 : 


1 iterations, AUC = 64.97% 
5 iterations, AUC = 66.62% 
10 iterations, AUC = 66.55% 
50 iterations, AUC = 66.81% 


于 是 我 们 发 现 一 旦 完成 特定 次 数 的 迭代 ， 再 增 大 和 迭 代 次 数 对 结果 的 影响 较 小 。 


(2) 步 长 
在 SGD 中 , 在 训练 每 个 样本 并 更 新 模型 的 权重 向 量 时 , 步 长 用 来 控制 算法 在 最 陡 的 梯度 方向 
上 应 该 前 进 多 远 。 较 大 的 步 长 收敛 较 快 ， 但 是 步 长 太 大 可 能 导致 收 但 到 局 部 最 优 解 。 


下 面 计算 不 同步 长 的 影响 : 
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val stepResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0) .map { param => 

val model = trainWithParams (scaledDataCats, 0.0, numIterations, new 
SimpleUpdater, param) 

createMetrics(s"$param step size", scaledDataCats, model) 
} 
stepResults.foreach { case (param, auc) => println(f"s$param, AUC = 
$s{auc * 100}%2.2f%%") } 


得 到 的 结果 如 下 ， 可 以 看 出 步 长 增长 过 大 对 性 能 有 负面 影响 : 


0.001 step size, AUC = 64.95% 
0.01 step size, AUC = 65.00% 

0.1 step size, AUC 
1.0 step size, AUC 
10.0 step size, AUC = 61.92% 


(3) 正则 化 


= 6 
= 6 


前 面 逻辑 回归 的 代码 中 简单 提 及 了 Updater 类 ， 该 类 在 MLlib 中 实现 了 正则 化 。 正 则 化 通过 
限制 模型 的 复杂 度 避 免 模 型 在 训练 数据 中 过 拟 合 。 


正则 化 的 具体 做 法 是 在 损失 函数 中 添加 一 项 关于 模型 权重 向 量 的 函数 ， 从 而 会 使 损失 增加 。 
正则 化 在 现实 中 几乎 是 必须 的 ， 当 特征 维度 高 于 训练 样本 时 ( 此 时 变量 相关 需要 学 习 的 权重 数量 
也 非常 大 ) 尤其 重要 。 
当 正 则 化 不 存在 或 者 非常 低 时 , 模型 容易 过 拟 合 。 而且 大 多 数 模 型 在 没有 正则 化 的 情况 会 在 
训练 数据 上 过 拟 合 。 过 拟 合 也 是 交叉 验证 技术 使 用 的 关键 原因 ， 交 叉 验 证 会 在 后 面 详细 介绍 。 
相反 , 虽然 正则 化 可 以 得 到 一 个 简单 模型 , 但 正则 化 太 高 可 能 导致 模型 欠 拟 合 ， 从 而 使 模型 
性 能 变 得 很 糟糕 。 
MLlib 中 可 用 的 正则 化 形式 有 如 下 几 个 。 
D simpleUpdater: 相当 于 没有 正则 化 ， 是 逻辑 回归 的 默认 配置 。 
口 squaredL2Updater: 这 个 正则 项 基于 权重 向 量 的 L2 正 则 化 ， 是 SVM 模型 的 默认 值 。 


口 L1Updaater: 这 个 正则 项 基于 权重 向 量 的 LI 正则 化 , 会 导致 得 到 一 个 稀 玻 的 权重 向 量 ( 不 
重要 的 权重 的 值 接近 0 )。 


正则 化 及 其 优化 是 一 个 广泛 和 重要 的 研究 领域 ， 下 面 给 出 一 些 相 关 的 资料 。 

口 通用 的 正则 化 综述 : http://en.wikipedia.org/wiki/Regularization (mathe- 

六 matics)。 

口 L2 正 则 化 : http://en.wikipedia.org/wiki/Tikhonov_regularization。 

口 过 拟 合 和 欠 拟 合 : http://en.wikipedia.org/wiki/Overfitting。 

口 关 于 过 拟 合 以 及 L1 和 L2 正 则 化 比较 的 详细 介绍 : http://citeseerx.ist. 
psu.edu/viewdoc/download?doi=10.1.1.92.9860&rep=repl&type=pdf。 
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下 面 使 用 squaredL2Updater 人 研究 正则 化 参数 的 影响 : 


val regResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0) .map { param => 
val model = trainWithParams (scaledDataCats, param, numIterations, 
new SquaredL2Updater, 1.0) 
createMetrics(s"$param L2 regularization parameter", 
scaledDataCats, model) 
} 
regResults.foreach { case (param, auc) => println(f"s$param, AUC = 
$s{auc * 100}%2.2f%%") } 


输出 结果 如 下 : 


0.001 L2 regularization parameter, AUC = 66.55% 
0.01 L2 regularization parameter, AUC = 66.55% 
0.1 L2 regularization parameter, AUC 66.63% 
1.0 L2 regularization parameter, AUC = 66.04% 
10.0 L2 regularization parameter, AUC = 35.33% 


可 以 看 出 , 低 等 级 的 正则 化 对 模型 的 性 能 影响 不 大 。 然 而 , 增 大 正则 化 可 以 看 到 欠 拟 合 会 导 
致 较 低 模型 性 能 。 


a 你 会 发 现 使 用 L1 正 则 项 也 会 得 到 类 似 的 结果 。 可 以 试 试 使 用 上 述 相同 的 评 本 
估 方 式 ， 计 算 不 同 L1 正 则 化 参数 下 AUC 的 性 能 。 


2. 决策 树 


决策 树 模型 在 一 开始 使 用 原始 数据 做 训练 时 获得 了 最 好 的 性 能 。 当 时 设置 了 参数 maxDepth 
用 来 控制 决策 树 的 最 大 深度 ， 进 而 控制 模型 的 复杂 度 。 而 树 的 深度 越 大 ,得 到 的 模型 越 复杂 , 但 
有 能 力 更 好 地 拟 合 数据 。 


对 于 分 类 问题 ， 我 们 需要 为 决策 树 模 型 选择 以 下 两 种 不 纯度 度量 方式 : Gini 或 者 Entropy。 
@ 树 的 深度 和 不 纯度 调 优 


下 面 我 们 来 说 明 树 的 深度 对 模型 性 能 的 影响 , 其 中 使 用 与 评估 逻辑 回归 模型 类 似 的 评估 方法 
(AUC ), 


首先 在 Spark shell 中 创建 一 个 辅助 函数 : 


import org.apache.spark.mllib.tree.impurity.Impurity 
import org.apache.spark.mllib.tree.impurity.Entropy 
import org.apache.spark.mllib.tree.impurity.Gini 


def trainDTWithParams (input: RDD[LabeledPoint], maxDepth: Int, 
impurity: Impurity) = { 
DecisionTree.train(input, Algo.Classification, impurity, maxDepth) 


} 
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接着 , 准备 计算 不 同 树 深度 配置 下 的 AUC。 因 为 不 需要 对 数据 进行 标准 化 ， 所 以 我 们 将 使 用 


样 例 中 原始 的 数据 。 
>》 注意 决策 树 通常 不 需要 特征 的 标准 化 和 归 一 化 ,也 不 要 求 将 类 型 特征 进行 二 
元 编码 。 


首先 ， 通 过 使 用 Entropy 不 纯度 并 改变 树 的 深度 训练 模型 ; 


val dtResultsEntropy = Seq(l1l, 2, 3, 4, 5, 10, 20) .map { param => 
val model = trainDTWithParams (data, param, Entropy) 
val scoreAndLabels = data.map { point => 
val Score = model.predict (point.features) 
(if (score > 0.5) 1.0 else 0.0, point.label) 
} 
val metrics = new BinaryClassificationMetrics (scoreAndLabels) 
(s"Sparam tree depth", metrics.areaUnderROC) 
3 
dtResultsEntropy.foreach { case (param, auc) => println(f"s$param, 
AUC = S${auc * 100}%2.2f%%") } 


计算 结果 如 下 : 

1 tree depth, AUC = 59.33% 
2 tree depth, AUC = 61.68% 
3 tree depth, AUC = 62.61% 
4 tree depth, AUC = 63.63% 
5 tree depth, AUC = 64.88% 
10 tree depth, AUC = 76.26% 
20 tree depth, AUC = 98.45% 


接 下 来 ,我 们 采用 Gini 不 纯度 进行 类 似 的 计算 代码 比较 类 似 ， 所 以 这 里 不 给 出 具体 代码 实 
但 可 以 在 代码 库 中 找到 )。 计 算 结果 应 该 和 下 面 类 似 : 


1 tree depth, AUC = 59.33% 
2 tree depth, AUC = 61.68% 
3 tree depth, AUC = 62.61% 
4 tree depth, AUC = 63.63% 
5 tree depth, AUC = 64.89% 
10 tree depth, AUC = 78.37% 
20 tree depth, AUC = 98.87% 


从 结果 中 可 以 看 出 ,提高 树 的 深度 可 以 得 到 更 精确 的 模型 ( 这 和 预期 一 致 ， 因 为 模型 在 更 大 


的 树 深度 下 会 变 得 更 加 复杂 )。 然 而 树 的 深度 越 大 ， 模 型 对 训练 数据 过 拟 合 程度 越 严重 。 


另外 ， 两 种 不 纯度 方法 对 性 能 的 影响 差异 较 小 。 
3. 朴素 贝 叶 斯 
最 后 ,让 我 们 看 看 1amqa 参 数 对 朴素 贝 叶 斯 模型 的 影响 。 该 参数 可 以 控制 相 加 式 平滑 (additive 
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smoothing )， 解 决 数据 中 某 个 类 别 和 某 个 特征 值 的 组 合 没 有 同时 出 现 的 问题 。 


| QS 更 多 关于 相 加 式 平滑 的 内 容 请 见 : http:/en.wikipedia.orgAwikiAdditive smoothing。 


和 之 前 的 做 法 一 样 ， 首 先 需 要 创建 一 个 方便 调用 的 辅助 函数 ， 用 来 训练 不 同 lamba 级 别 下 的 


def trainNBWithParams (input: RDD[LabeledPoint], lambda: Double) = { 
val nb = new NaiveBayes 
nb.setLambda (lambda) 
nb.run (input) 
} 
val nbResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0) .map { param => 
val model = trainNBWithParams (dataNB, param) 
val scoreAndLabels = dataNB.map { point => 
(model .predict (point.features), point.label) 
} 
val metrics = new BinaryClassificationMetrics(scoreAndLabels) 
(s"$Sparam lambda", metrics.areaUnderROC) 
} 
nbResults.foreach { case (param, auc) => println(f"$param, AUC = 
Ss{auc * 100}%2.2f%%") 
} 


训练 的 结果 如 下 : 


0.001 lambda, AUC = 60.51% 
0.01 lambda, AUC = 60.51% 
0.1 lambda, AUC = 
1.0 lambda, AUC = 
10.0 lambda, AUC = 60.51% 


从 结果 中 可 以 看 出 1ambaa 的 值 对 性 能 没有 影响 ， 由 此 可 见 数据 中 某 个 特征 和 某 个 类 别 的 组 
合 不 存在 时 不 是 问题 。 


4. 交叉 验证 
到 目前 为 止 , 本 书 只 是 简单 提 到 交叉 验证 和 训练 样本 外 的 预测 。 而 交叉 验证 是 实际 机 器 学 习 
中 的 关键 部 分 ， 同 时 在 多 模型 选择 和 参数 调 优 中 占有 中 心地 位 。 


交叉 验证 的 目的 是 测试 模型 在 未 知 数据 上 的 性 能 。 不 知道 训练 的 模型 在 预测 新 数据 时 的 性 
能 ， 而 直接 放 在 实际 数据 ( 比如 运行 的 系统 ) 中 进行 评估 是 很 危险 的 做 法 。 正 如 前 面 提 到 的 正则 
化 实验 中 , 我 们 的 模型 可 能 在 训练 数据 中 已 经 过 拟 合 了 , 于 是 在 未 被 训练 的 新 数据 中 预测 性 能 会 
很 差 。 


交叉 验证 让 我 们 使 用 一 部 分 数据 训练 模型 , 将 男 外 一 部 分 用 来 评估 模型 性 能 。 如 果 模 型 在 训 
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练 以 外 的 新 数据 中 进行 了 测试 ， 我 们 便 可 以 由 此 估计 模型 对 新 数据 的 泛 化 能 


我 们 把 数据 划分 为 训练 和 测试 数据 , 实现 一 个 简单 的 交叉 验证 过 程 。 我 们 将 数据 分 为 两 个 不 
重 受 的 数据 集 。 第 一 个 数据 集 用 来 训练 ， 称 为 训练 集 。 第 二 个 数据 集 称 为 测试 集 或 者 保留 集 , 用 
来 评估 模型 在 给 定 评 测 方法 下 的 性 能 。 实 际 中 常用 的 划分 方法 包括 : $0/30、60/40、80/20 等 ， 只 
要 训练 模型 的 数据 量 不 太 小 就 行 ( 通常 ， 实 际 使 用 至 少 50% 的 数据 用 于 训练 )。 

在 很 多 例子 中 ,会 创建 三 个 数据 集 : 训练 集 、 评 估 集 (类似 上 述 测 试 集 用 于 模型 参数 的 调 
优 ， 比 如 lambda 和 步 长 ) 和 测试 集 ( 不 用 于 模型 的 训练 和 参数 调 优 ， 只 用 于 估计 模型 在 新 数据 
中 性 能 )。 


本 书 只 简单 地 将 数据 分 为 训练 集 和 测试 集 , 但 实际 中 存在 很 多 更 加 复杂 的 交 
又 验证 技术 。 
2 一 个 流行 的 方法 是 K- 折 过 交叉 验证 ， 其 中 数据 集 被 分 成 K 个 不 重 双 的 部 分 。 
用 数据 中 的 K-1 份 训练 模型 ， 剩 下 一 部 分 测试 模型 。 而 只 分 训练 集 和 测试 集 可 以 
看 做 是 2- 折 登 交 叉 验 证 。 
其 他 方法 包括 “ 留 一 交叉 验证 ”和 “随机 采样 "。 更 多 资料 详 见 http:/en. 
wikipedia.org/wiki/Cross-validation (statistics)。 


首先 ， 我 们 将 数据 集 分 成 60% 的 训练 集 和 40% 的 测试 集 ( 为 了 方便 解释 ， 我 们 在 代码 中 使 用 
一 个 固定 的 随机 种 子 123 来 保证 每 次 实验 能 得 到 相同 的 结果 ): 


val trainTestSplit = scaledDataCats.randomSplit (Array (0.6, 0.4), 123) 
val train = trainTestSplit (0) 
val test = trainTestSplit(1) 


接 下 来 在 不 同 的 正则 化 参数 下 评估 模 型 的 性 能 ( 这 里 依然 使 用 AUC )。 注 意 我 们 在 正则 化 参 
数 之 间 设 置 了 很 小 的 步 长 ， 为 的 是 更 好 解释 AUC 在 各 个 正则 化 参数 下 的 变化 ， 同 时 这 个 例子 的 
AUC 的 变化 也 很 小 : 


val regResultsTest = Seq(0.0, 0.001, 0.0025, 0.005, 0.01) .map { param => 
val model = ttrainNithParams (train, param, numIterations, new 
SquaredL2Updater, 1.0) 
createMetrics(s"$param L2 regularization parameter", test, model) 
} 
regResultsTest.foreach { case (param, auc) => println(f"s$param, 
AUC = S${auc * 100}%2.6f%%") 


} 
代码 计算 了 测试 集 的 模型 性 能 ， 具 体 结果 如 下 : 


0.0 L2 regularization parameter, AUC = 66.480874% 
0.001 L2 regularization parameter, AUC = 66.480874% 
0.0025 L2 regularization parameter, AUC = 66.515027% 
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0.005 L2 regularization parameter, AUC = 66.515027% 
0.01 L2 regularization parameter, AUC = 66.549180% 


接着 , 让 我 们 比较 一 下 在 训练 集 上 的 模型 性 能 (类似 之 前 对 所 有 数据 进行 训练 和 测试 时 所 做 
的 )。 因 为 代码 类 似 ， 这 里 就 不 具体 给 出 代码 了 ( 可 以 在 代码 库 中 找到 ): 
.0 L2 regularization parameter, AUC = 66.260311% 
.001 L2 regularization parameter, AUC = 66.260311% 
.0025 L2 regularization parameter, AUC = 66.260311% 


.005 L2 regularization parameter, AUC = 66.238294% 
.01 L2 regularization parameter, AUC = 66.238294% 


从 上 面 的 结果 可 以 看 出 ， 当 我 们 的 训练 集 和 测试 集 相 同时 , 通常 在 正则 化 参数 比较 小 的 情况 
下 可 以 得 到 最 高 的 性 能 。 这 是 因为 我 们 的 模型 在 较 低 的 正则 化 下 学 习 了 所 有 的 数据 ， 即 过 拟 合 的 
情况 下 达到 更 高 的 性 能 。 
相反 ， 当 训练 集 和 测试 集 不 同时 ， 通 常 较 高 正则 化 可 以 得 到 较 高 的 测试 性 能 。 
在 交叉 验证 中 , 我 们 一 般 选 择 测试 集中 性 能 表现 最 好 的 参数 设置 (包括 正则 化 以 及 步 长 等 各 
种 各 样 的 参数 )。 然 后 用 这 些 参数 在 所 有 的 数据 集 上 重新 训练 ， 最 后 用 于 新 数据 集 的 预测 。 


口 口 口 口 口 


i 第 4 章 使 用 Spark 构 建 推荐 系统 时 并 没有 讨论 交叉 验证 。 但 是 你 也 可 以 用 本 章 
外 绍 的 方法 将 ratings 数 据 集 划分 成 训练 集 和 测试 集 。 然 后 在 训练 集中 测试 不 呈 
的 参数 设置 ， 同 时 在 测试 集 上 评估 MSE 和 MAP 的 性 能 。 建 议 尝试 一 下 1! 


5.7 小 结 

本 章 介绍 了 Spark MLlib 中 提供 的 各 种 分 类 模型 , 讨论 了 如 何在 给 定 输入 数据 中 训练 模型 ， 以 
及 在 标准 评测 指标 下 评估 模型 的 性 能 。 还 讨论 了 如 何 用 之 前 介绍 的 技术 来 处 理 特征 以 得 到 更 好 的 
性 能 。 最后， 我们 讨论 了 正确 的 数据 格式 和 数据 分 布 、 更 多 的 训练 数据 、 模 型 参数 调 优 ， 以 及 交 
叉 验 证 对 模型 能 的 影响 。 


在 下 一 章 中 ， 我 们 将 使 用 类 似 的 方法 研究 MLlib 的 回归 模型 。 
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本 章 将 基于 第 5 章 的 内 容 继续 讨论 回归 模型 。 分 类 模型 处 理 表示 类 别 的 离散 变量 ， 而 回归 模 
型 则 处 理 可 以 取 任意 实数 的 目标 变量 。 但 是 二 者 基本 的 原则 类 似 ,都 是 通过 确定 一 个 模型 ,将 输 
入 特征 映射 到 预测 的 输出 。 回 归 模 型 和 分 类 模型 都 是 监督 学 习 的 一 种 形式 。 


回归 模型 可 以 用 来 预测 任何 目标 ， 下 面 是 几 个 例子 。 


口 预测 股票 收益 和 其 他 经 济 相关 的 因素 ; 

口 预测 贷款 违约 造成 的 损失 〈 可 以 和 分 类 模型 相 结 合 ， 分 类 模型 预测 违约 概率 ， 回 归 模型 
预测 违约 损失 ); 

口 推荐 系统 第 4 童 中 的 交 蔡 最 小 二 乘 分 解 模型 在 每 次 迭代 时 都 使 用 了 线性 回归 ); 

口 基于 用 户 的 行为 和 消费 模式 ,预测 顾客 对 于 零售 、 移 动 或 者 其 他 商业 形态 的 存在 价值 。 


接 下 来 的 几 节 ， 我 们 将 : 


口 介绍 MLlib 中 的 各 种 回归 模型 ; 

口 讨论 回归 模型 的 特征 提取 和 目标 变量 的 变换 ; 

口 使 用 MLlib 训 练 回归 模 型 ; 

口 介绍 如 何 用 训练 好 的 模型 做 预测 ; 

口 使 用 交叉 验证 研究 设置 不 同 的 参数 对 性 能 的 影响 。 


6.1 回归 模型 的 种 类 
Spark 的 MLlib 库 提供 了 两 大 回归 模型 : 线性 模型 和 决策 树 模型 。 


线性 回归 模型 本 质 上 和 对 应 的 线性 分 类 模型 一 样 ， 唯 一 的 区 别 是 线性 回归 使 用 的 损失 函数 、 
相关 连接 函数 和 决策 函数 不 同 。MLlib 提 供 了 标准 的 最 小 二 乘 回归 模型 ( 其 他 广义 线性 回归 模型 
也 正在 计划 当中 )。 


决策 树 同样 可 以 通过 改变 不 纯度 的 度量 方法 用 于 回归 分 析 。 
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6.1.1 最 小 二 乘 回归 


第 5$ 章 将 各 种 各 样 的 损失 函数 应 用 于 广义 线性 模型 ( generalized linear model )。 最 小 二 乘 的 损 
失 函 数 是 平方 损失， 定义 如 下 : 


1 
F(x -7) 


上 面 的 公式 和 分 类 模型 的 定义 类 似 , y 是 目标 变量 ( 这 里 是 实数 ), w 是 权重 变量 , x 是 特征 向 量 。 


相关 的 连接 函数 和 决策 函数 是 对 等 连接 函数 。 回 归 模型 通常 不 用 设置 阔 值 ,因此 模型 的 预测 
函数 就 是 简单 的 = wx 。 


在 MLIib 中 ， 标 准 的 最 小 二 乘 回归 不 使 用 正则 化 。 但 是 应 用 到 错误 预测 值 的 损失 函数 会 将 错 
误 做 平方 ,从 而 放大 损失 。 这 也 意味 着 最 小 平方 回归 对 数据 中 的 异常 点 和 过 拟 合 非常 敏感 。 因 此 
对 于 分 类 咒 ， 我 们 通常 在 实际 中 必须 应 用 一 定 程度 的 正则 化 。 


线性 回归 在 应 用 L2 正 则 化 时 通常 称 为 岭 回 归 ( ridge regression ), 应 用 LI 正则 化 是 称 为 LASSO 
( Least Absolute Shrinkage and Selection Operator )。 


yl 更 多 关于 线性 最 小 二 来 回归 模型 的 资料 ， 请 查看 Spark MLlib 文 档 : 
http://spark.apache.org/docs/latest/mllib-linear-methods.html#linear-least-squares- 


lasso-and-ridge-regression。 


6.1.2 决策 树 回归 


类 似 线性 回归 模型 需要 使 用 对 应 损失 函数 , 决策 树 在 用 于 回归 时 也 要 使 用 对 应 的 不 纯度 度量 
方法 。 这 里 的 不 纯度 度量 方法 是 方差 ， 和 最 小 二 乘 回归 模型 定义 方差 损失 的 方式 一 样 。 


KW 更 多 关于 决策 树 和 不 纯度 度量 方法 的 资料 , 详 见 Spark 文 档 中 MLlib 决 策 树 部 
分 : http://spark.apache.org/docs/latest/mllib-decision-tree.html。 


图 6-1 是 一 个 回归 问题 的 示例 图 ， 其 中 输入 变量 为 x 轴 ， 目 标 变量 为 y 轴 。 图 中 线性 预测 函数 
用 (向 右上 方 倾斜 的 ) 红色 虚线 表示 ,决策 树 预测 函数 用 ( 拆 线 型 的 ) 绿色 虚线 表示 。 可 见 决 策 
树 可 以 使 用 较 复 杂 的 非 线 性 模型 来 拟 合 数 据 。 
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图 6-1 线性 回归 和 决策 树 回 归 的 预测 函数 


6.2 ”从 数据 中 抽取 合适 的 特征 


为 回归 的 基础 模型 和 分 类 模型 一 样 , 所 以 我 们 可 以 使 用 同样 的 方法 来 处 理 和 输入 的 特 生 
中 唯一 的 不 同 是 , 回归 模型 的 预测 目标 是 


两 种 情况 ，MLlib 中 的 LabeledPoin 


从 bike sharing 数据 集 抽取 特征 


F。 实际 
实数 变量 , 而 分 类 模型 的 预测 目标 是 类 别 编 号 。 为 了 满足 


t 类 已 经 考虑 了 这 一 点 ， 类 中 的 1abel 字 段 使 用 Douple 类 型 。 


为 了 阐述 本 章 的 一 些 概念 ， 我 们 选择 了 bike sharing 数 据 集 做 实验 。 这 个 数据 集 记录 了 bike 
sharing 系 统 每 小 时 自行 车 的 出 租 次 数 。 另 外 还 包括 日 期 、 时间、 天 气 、 季 节 和 节假日 等 相关 信息 。 


Dataset。 


这 个 数据 集 的 下 载 地 址 : http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+ 


点 击 Data Folder 链 接 下 载 Bike-Sharing-Datase.zip 文 件 。 
CW 波尔图 大 学 的 Hadi Fanaee-T 在 bike sharing 数 据 集中 补充 了 大 量 天 气 和 季节 
一 相关 的 数据 ， 相 关 论 文 见 :“Event labeling combining ensemble detectors and 
background knowledge”， 作 者 Hadi Fanaee-T、Gama Joao， 刊 载 于 Progress in 
Artificial Intelligence, ppl-15, Springer Berlin Heidelberg, 2013 。 
论文 下 载 地 址 :http://link.springer.com/article/10.1007%2Fs13748-013-0040-3。 
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下 载 并 解压 Bike-Sharing-Dataset.zip， 会 出 现 一 个 名 为 Bike-Sharing-Dataset 的 文件 夹 ， 里 面包 
含 day.csv、hourcsv 和 Readme.txt 等 文件 。 


其 中 Readme.txt 文 件 有 数据 集 的 相关 信息 , 包括 变量 名 和 描述 。 打 开 文 件 , 可 以 看 到 如 下 信息 。 


口 instant: 记录 ID 

口 dteday: 时 间 

口 season: 四 季节 信息 ， 如 spring、summer、winter 和 fall 
口 yr: 年 份 (2011 或 者 2012 ) 

口 mnth: 月 份 

口 nr: 当天 时 刻 

口 holidqay: 是 否 是 节假日 

口 weekday: 周 几 

口 workingday: 当天 是 否 是 工作 日 

口 weathersit: 表示 天 气 类 型 的 参数 

口 temp: 气温 

口 atemp : 体感 温度 

口 hum: 湿度 

口 windspeed: 风速 

口 cnt: 目标 变量 ， 每 小 时 的 自行 车 租用 量 


下 面 我 们 使 用 包含 时 间 的 hourcsv 文 件 做 实验 。 打 开 文 件 ， 第 一 行 是 每 一 列 的 关键 字 。 使 用 


如 下 命令 : 


>head -1 hour .csV 
输出 结果 如 下 : 


instant,dteday, season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp, 
hum,windspeed,casual,registered,cnt 


用 Spark 处 理 这 些 数据 之 前 ， 需 要 用 sed 命 令 将 第 一 行 去 掉 : 
> Sed 1d hour.csv > hour_noheader .CSV 


为 后 面 要 画 一 些 图 , 所 以 在 本 章 我 们 使 用 Python shell, 同时 也 可 以 用 来 展示 如 何在 PyShark 
下 使 用 MLlib 的 线性 模型 和 决策 树 模型 。 


在 Spark 的 安装 目录 下 启动 PySpark shell。 这 里 我 们 强烈 建议 使 用 IPython, 使 用 时 需要 在 环境 
变量 中 设置 1PYTHON=1 并 启用 py1lab 功 能 : 


>IPYTHON=1 IPYTHON OPTS="—~pylab" ./bin/pyspark 
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通过 如 下 命令 运行 Python Notebook: 
>IPYTHON=1 IPYTHON_OPTS=notebook ./bin/pyspark 


本 章 之 后 的 代码 可 以 直接 在 PySpark shell ( 或 IPython Notebook ) 中 使 用 。 


MY 


QQ 第 3 章 有 相关 内 容 指 导 安装 IPython。 


我 们 用 如 下 代码 加 载 和 查看 数据 集 : 


path = "/PATH/hour_noheader.csv" 

raw_data = sc.textFile (path) 

num_ data = raw_data.count() 

records = raw_data.map (lambda x: x.split(",")) 
first = records.first() 

Br init £1 

print num data 


可 以 看 到 如 下 输出 : 


[u'1', u'2011-01-01', u'1', u'0', u'll', u'0', u'0', u'6', u'0', u'1', u'0.24', 

u'0.2879', u'0.81', u'0', u'3', u'13', u'16'] 

17379 

结果 显示 , 数据 集中 共有 17 379 个 小 时 的 记录 。 接 下 来 的 实验 , 我 们 会 包 略 记录 中 的 instant 
和 ateqay。 忽 略 两 个 记录 次 数 的 变量 casual 和 registered ， 只 保留 cnt (casual 和 
registered 的 和 )。 最 后 就 剩 下 12 个 变量 ， 其 中 前 8 个 是 类 型 变量 ， 后 4 个 是 归 一 化 后 的 实数 变 
量 。 对 其 中 8 个 类 型 变量 ， 我 们 使 用 之 前 提 到 的 二 元 编码 ， 剩 下 4 个 实数 变量 不 做 处 理 


为 在 多 次 读 取 数据 集 ， 所 以 这 里 对 数据 进行 缓存 : 


O 


records.cache() 

为 了 将 类 型 特征 表示 成 二 维 形 式 ， 我 们 将 特征 值 映射 到 二 元 向 量 中 非 0 的 位 置 。 下 面 定义 这 
样 一 个 映射 函数 : 

def get_ mapping (rdd, idx): 


return rdd.map (lambda fields: fields[idx]) .distinct() 
.ZipWithIndex() .collectAsMap () 


上 面 的 函数 首先 将 第 iax 列 的 特征 值 去 重 ， 然 后 对 每 个 值 使 用 zipwithIindex 函 数 映射 到 一 
个 唯一 的 索引 ， 这 样 就 组 成 了 一 个 RDD 的 键 - 值 映射 键 是 变量 , 值 是 索引 。 上 述 索 引 便 是 特征 
在 二 元 向 量 中 对 应 的 非 0 位 置 ， 最 后 我 们 将 这 个 RDD 表 示 成 Python 的 字典 类 型 。 

下 面 ， 我 们 用 特征 矩阵 的 第 三 列 〈 索 引 2 ) 来 测试 上 面 的 映射 函数 : 


9 


print "Mapping of first categorical feasture column: %s" % get_ mapping (records, 2) 
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输出 结果 : 
Mapping of first categorical feasture column: {u'1': 0, u'3': 2, u'2': 1, u'4': 3} 


接着 ,对 是 类 型 变量 的 列 (第 2~9 列 ) 应 用 该 函数 : 


mappings = [get_mapping (records, i) for i in range(2,10)] 
cat_len = sum(map (len, mappings)) 

num_ len = lenl(records.first()[11:15]) 

total_len = num_ len + cat_len 


计算 完 每 个 变量 的 映射 之 后 ,统计 一 下 最 终 二 元 向 量 的 总 长 度 : 


print "Feature Vector length for categorical features: %d" 
print "Feature Vector length for numerical features: %d" %$ num len 
print "Total feature vector length: %d" % total_len 


述 代码 的 输出 结果 : 


Feature vector length for categorical features: 57 
Feature vector length for numerical features: 4 
Total feature vector length: 61 


1. 为 线性 模型 创建 特征 向 量 


接 下 来 用 上 面 的 映射 函数 将 所 有 类 型 特征 转换 为 二 元 编码 的 特征 ,为 了 方便 对 每 条 记录 提取 
寺 征 和 标签 ， 我 们 分 别 定义 两 个 辅助 子 数 extract_features 和 extract_label。 如 下 为 代码 
实现 ， 注 意 需 要 引入 numpy 和 MLlib 的 LapbeledPoint 对 特征 向 量 和 目标 变量 进行 封装 . 


from pyspark.mllib.regression import LabeledPoint 
import numpy as np 


def extract_features (record): 
cat_vec = np.zeros(cat_len) 
LE 
step = 0 
fOr field. Ln Eecord[2s9]s 
m = mappings{[i] 
idx = m[field] 
cat_vec[idx + step] = 1 
LT :7 
step = step + len(m) 
num vec = np.array ([float (field) for field in record[10:14]]) 
return np.concatenate((cat_vec, num vec)) 


def extract_label (record): 
return float (record[-1]) 


在 extract_features 函 数 中 , 我 们 遍历 了 数据 的 每 一 行 每 一 列 , 根据 已 经 创建 的 映射 对 每 
个 特征 进行 二 元 编码 。 其 中 step 变 量 用 来 确保 非 0 特征 在 整个 特征 向 量 中 位 于 正确 的 位 置 (另外 
一 种 实现 方法 是 将 若干 较 短 的 二 元 向 量 拼接 在 一 起 )。 数 值 向 量 直接 对 之 前 已 经 被 转换 成 浮 点 数 
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的 数据 用 numpy 的 array 进 行 封装 。 最 后 将 二 元 向 量 和 数值 向 量 拼接 起 来 。 定义 extract_label 
函数 将 数据 中 的 最 后 一 列 cnt 的 数据 转换 成 浮 点 数 。 


使 用 定义 好 的 辅助 函数 ， 便 可 以 对 每 条 数据 记录 提取 特征 向 量 和 标签 了 。 


data = records.map(lambda r: LabeledPoint (extract_label(r), extract_features (r))) 
让 我 们 来 观察 一 下 DD 中 的 第 一 条 记录 : 


fieet DoOLnt Edata first(} 


print "Raw data: " + str(first[2:]) 

print "Label: " + str(first_ point.label) 

print "Linear Model feature vector:\n" + str(first_ point.features) 

print "Linear Model feature vector length: " + str(len(first_ point.features)) 


输出 结果 类 似 如 下 所 示 : 


Raw data: [u'1', u'0', u'1l', u'0', u'0', u'6', u'0', u'1', u'0.24', 
u'0.2879', u'0.81', u'0', u'3', u'13', u'16'] 

Label: 16.0 

Linear Model feature vector: [1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0 
10.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0 
.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.24,0.2879,0.81,0.0] 

Linear Model feature vector length: 61 


从 结果 来 看 , 我 们 将 原始 数据 转 成 二 元 类 型 特征 和 实数 特征 , 并 连接 组 成 了 长 度 为 61 的 特征 


向 量 。 
2. 为 决策 树 创建 特征 向 量 


我 们 已 经 知道 ， 决 策 树 模型 可 以 直接 使 用 原始 数据 ( 不 需要 将 类 型 数据 用 二 元 向 量 表示 )。 
因此 ， 只 需要 创建 一 个 分 割 函数 简单 地 将 所 有 数值 转换 为 浮 点 数 ， 最 后 用 numpy 的 array 封 装 : 


def extract_features_dt (record): 
return np.array (map (float, record[2:14])) 
data_dt = records.map(lambda r: LabeledPoint (extract_label (r), 
extract_features_dt (r))) 
first point_dt = data dt.first() 
print "Decision Tree feature vector: " + str(first point_ dt.features) 
print "Decision Tree feature vector length: " + 
str(len(first_ point_dt.features)) 


从 下 面 的 输出 可 以 看 到 提取 的 特征 向 量 长 度 为 12， 和 数据 集中 的 变量 个 数 一 致 : 


Decision Tree feature vector: [1.0,0.0,1.0,0.0,0.0,6.0,0.0,1.0,0.24,0.2879, 
0.81,0.0] 


Decision Tree feature vector length: 12 


T 
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6.3 回归 模型 的 训练 和 应 用 


使 用 决策 树 和 线性 模型 训练 回归 模型 的 步 又 和 使 用 分 类 模型 相同 , 都 是 简单 将 训练 数据 封装 
在 LabeledPoint 的 RDD 中 ,并 送 到 相关 的 train 方 法 上 进行 训练 。 注 意 在 Scala 中 ， 如果 要 自 定 
义 不 同 的 模型 参数 (比如 SGD 优 化 的 正则 化 和 步 长 )， 就 需要 初始 化 一 个 新 的 模型 实例 ， 使 用 实 
例 的 optimizer 变 量 访问 和 设置 参数 。 

Python 提供 了 方便 我 们 访问 所 有 模型 参数 的 方法 ,因此 只 要 使 用 相关 方法 即 可 。 可 以 通过 引 
入 相关 模块 ， 并 调用 train 方 法 中 的 help 函 数 查 看 这 些 方 法 的 具体 细节 : 


from pyspark.mllib.regression import LinearRegressionWithSsGD 
from pyspark.mllib.tree import DecisionTree 
help (LinearRegressionWithSGD.train) 


线性 模型 调用 该 方法 后 输出 如 图 6-2 所 示 的 文档 信息 : 


Help on method train in module pyspark.mllib.regression: 


train(cls, data, iterations=100, step=1.0, miniBatchFraction=l1.0, initialWeights=None, regParam=0.0, regType“None, intercept=PFa 
lse) method of builtin .type instance 
Train a linear regression model on the given data. 


:param data: The training data. 
:param iterations: The number of iterations (default: 100). 
:param step: The step parameter used in SGD 


(default: 1.0). 
:param miniBatchFraction: Fraction of data to be used for each SGD 
iteration. 
:param initialweights: The initial weights (default: Wone). 
:param regParam: The regularizer Parameter (Gefault: 0.0). 
:param regType: The type of regularizer used for training 
our model. 


:Allowed values: 
= "11” for using Ll regularization (lasso), 
- "12" for using L2 regularization (ridge), 
- None for no regularization 


(default: None) 


eparam intercept: Boolean Parameter which indicates the use 
or not of the augmented representation for 
training data (i.e. whether bias features 
are activated or not), 


图 6-2 ”线性 回归 的 帮助 文档 
通过 查看 线性 模型 的 文档 , 我们 发 现 用 于 训练 的 数据 量 不 能 少 于 最 低 值 ， 其 中 train 方 法 可 
以 设置 任何 模型 参数 。 同样 ， 调用 决策 树 模型 的 LrainRegressor 方 法 查看 帮助 信息 ( 回顾 之 前 
trainclassifier 用 于 分 类 模型 ); 


help(DecisionTree.trainRegressor) 


上 述 代 码 的 输出 如 图 6-3 所 示 的 文档 内 容 : 
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Help on method trainRegressor in module pyspark.mllib.tree: 
trainRegressor(cls, data, categoricalFeaturesInfo, impurity®'variance', maxDepth"5, maxBins=32, minInstancesPerNode=!l, minInfoG 
ain=0.0) method of _ builtin .type instance 

Train a DecisionTreeModel for regression. 


:param data: Training data: RDD of LabeledPoint. 
Labels are real numbers. 
:param categoricaireaturesInfo: Map from categorical feature index 
to number of categories. 
Any feature not in this map 
is treated as continuous. 
:param impurity: Supported values: "variance” 
:param maxDepth: Max depth of tree. 
E.g., depth 0 means 1 leaf node. 
Depth 1 means 1 internal node + 2 leaf nodes. 
:param maxBins: Number of bins used for finding splits at each node. 
:param minTnstancesperNode: Min number of instances required at child 
nodes to create the parent split 
:param minInfoGain: Min info gain required to create a split 
:return: DecisionTreeModel 


Example usage: 


>>> from pyspark.mllib.regression import LabeledPoint 

ib.tree import DecisionTree 

>>> from pyspark.mllib.linalg import SparseVector 

>>> 

>>> sparse_data = [ 
Labeledpoint(0.0, Sparsevector(2, {0: 0.0}))， 
LabeledPoint(1.0, SparseVector(2, {1: 
LabeledPpoint(0.0, SparseVector(2, { 
LabeledPoint(1.0, SparseVector(2, 


>>> 

>>> model ” DecisionTree.trainRegressor(sc.parallelize(sparse data), {1}) 
>>> model.predict(SparseVector(2，{1: 1.0})) 

1.0 

>>> model.predict(SparseVector(2, {1: 0.0})) 

0.0 

>>> rdd = sc.parallelize({{0.0, 1.0], 10.0, 0.0]]) 

>>> model.predict(rdd).collect() 

{1.0, 0.0] 


图 6-3 ”决策 树 的 回归 模型 帮助 文档 


在 bike sharing 数据 上 训练 回归 模型 


我 们 已 经 从 bike sharing 数 据 中 提取 了 用 于 训练 模型 的 特征 ， 下 面 进行 具体 的 训练 。 首 先 训练 


线性 模型 并 测试 该 模型 在 训练 数据 上 的 预测 效果 : 


间 ， 


yi 
树 )。 注意 ， 


linear_ model = LinearRegressionWithsGD.train(data, iterations=10, 
step=0.1, intercept=False) 
true_vs_predicted = data.map (lambda p: 
predict (p.features))) 
print "Linear Model predictions: 


str(true vs_predicted.take(5)) 
上 述 代码 中 我 们 没有 使 用 默认 的 迭代 次 数 和 步 长 ， 而 是 使 用 较 小 的 迭代 次 数 以 缩短 训练 时 
关于 步 长 的 设置 我 们 稍 后 会 详细 介绍 。 代 码 运 行 的 输出 如 下 : 


119.30920003093595)， 
(13.0, 


(p.label, linear_ _ model . 


1 十 


[(16.0, (40.0, 
116.57294610647752)， 


116.221247828503)] 


Linear Model predictions: 
116.95463511937379)， (32.0, 
116.43535423855654)， (1.0, 


接 下 来 ， 我 们 在 trainRegressor 中 使 用 默认 参数 来 训练 决策 树 模 型 ( 相当 于 深度 为 5 的 
这 里 训练 数据 集 是 从 原始 特征 中 提取 的 ， 名 为 aata_at ( 不同 于 之 前 线性 模型 中 使 


用 的 二 元 编码 的 特征 )。 


另外 , 我 们 还 需要 为 categoricalFeaturesInfo 传 人 一 个 字典 参数 , 这 个 字典 参数 将 类 型 


特征 的 索引 映射 到 特征 中 类 型 的 数目 。 如 果 某 个 特征 值 不 在 这 个 字典 中 ， 则 将 其 映射 设置 为 空 
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dt_model = DecisionTree.trainRegressor (data_dt,{}) 

preds = dt_model.predict (data_dt.map(lambda p: p.features)) 
actual = data.map(lambda p: p.label) 

true_vs_predicted dt = actual.zip (preds) 


print "Decision Tree predictions: " + str(true vs_ predicteqd dt.take(5)) 
print "Decision Tree depth: " + str(dt_model.depth()) 
print "Decision Tree number of nodes: " + str(dt_model.numNodes () ) 


上 述 代 码 将 得 到 如 下 预测 结果 : 

Decision Tree predictions: [(16.0, 54.913223140495866)，, 

(40.0, 54.913223140495866), (32.0, 53.171052631578945), (13.0, 
14.284023668639053), (1.0, 14.284023668639053)] 

Decision Tree depth: 5 

Decision Tree number of nodes: 63 


我 们 还 有 一 个 使 用 categoricalFeaturesInfo 的 例子 ， 可 以 在 本 章 的 代 
一 码 库 中 找到 ， 最 后 得 到 的 性 能 和 前 面 的 例子 差不多 。 


通过 观察 上 述 预 测 结果 , 决策 树 模型 和 线性 模型 的 性 能 都 有 改进 的 空间 , 使 得 预测 结果 变 得 
更 好 。 后 面 ， 我 们 将 会 利用 更 严格 的 评估 方法 来 发 现 能 够 改进 的 地 方 。 


6.4 评估 回归 模型 的 性 能 
第 5 章 评估 分 类 模型 仅仅 关注 预测 输出 的 类 别 和 实际 类 别 。 特 别 是 对 于 所 有 预测 的 二 元 结 
某 个 样本 预测 的 正确 与 否 并 不 重要 ， 我 们 更 关心 预测 结果 中 正确 或 者 错误 的 总 数 。 


对 回归 模型 而 言 , 因为 目标 变量 是 任 一 实数 ,所 以 我 们 的 模型 不 大 可 能 精确 预测 到 目标 变量 。 
然而 ， 我 们 可 以 计算 预测 值 和 实际 值 的 误差 ， 并 用 某 种 度量 方式 进行 评估 。 


一 些 用 于 评估 回归 模型 的 方法 包括 : 均 方 误差 (MSE，Mean Squared Error )、 均 方 根 误差 
(RMSE，Root Mean Squared Error )、 平 均 绝对 误差 (MAE，Mean Absolute Error )、R- 平 方 系数 
( R-squared coefficient ) 等 。 


6.4.1 均 方 误差 和 均 方 根 误 差 
MSE 是 平方 误差 的 均值 ， 用 作 最 小 二 乘 回归 的 损失 函数 ， 公 式 如 下 : 


(wxCD) —y(0)) 
这 个 公式 计算 的 是 所 有 样本 预测 值 和 实际 值 平方 差 之 和 ， 最 后 除 以 样本 总 数 。 
而 RMSE 是 MSE 的 平方 根 。MSE 的 公式 类 似 平方 损失 函数 ， 会 进一步 放大 误差。 
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为 了 计算 模型 预测 的 平均 误差 , 我 们 首先 预测 RDD 实 例 LapeledPoint 中 每 个 特征 向 量 , 然 
后 计算 预测 值 与 实际 值 的 误差 并 组 成 一 个 Douple 数 组 的 RDD ， 最 后 使 用 mean 方 法 计算 所 有 
Double 值 的 平均 值 。 计 算 平方 误差 函数 实现 如 下 : 


def squared error(actual, pred): 
return (pred - actual)**2 


6.4.2 平均 绝对 误差 
MAE 是 预测 值 和 实际 值 的 差 的 绝对 值 的 平均 值 。 
wz-2O 
i=1 7 


MAE 和 MSE 大 体 类 似 ， 区 别 在 于 MAE 对 大 的 误差 没有 惩罚 。 计 算 MAE 的 代码 如 下 : 


def abs_error(actual, pred): 
return np.abs (pred - actual) 


6.4.3” 均 方 根 对 数 误 差 


这 个 度量 方法 虽然 没有 MSE 和 MAE 使 用 得 广 , 但 被 用 于 Kaggle 中 以 bike sharing 作 为 数据 集 的 
比赛 。RMSLE 可 以 认为 是 对 预测 值 和 目标 值 进行 对 数 变换 后 的 RMSE。 这 个 度量 方法 适用 于 目标 
变量 值 域 很 大 , 并 且 没有 必要 对 预测 值 和 目标 值 的 误差 进行 惩罚 的 情况 。 另 外 , 它 也 适用 于 计算 
误差 的 百分率 而 不 是 误差 的 绝对 值 。 


evaluation 。 


| Kaggle 竞 赛 的 评测 页 面 : https://www.kaggle.com/c/bike-sharing-demand/details/ 
A 


计算 RMSLE 的 代码 : 


def squared log_error(pred, actual): 
return (np.log(pred + 1) - np.log(actual + 1))**2 


6.4.4” RR- 平方 系数 


R- 平 方 系数 ， 也 称 判定 系数 ， 用 来 评估 模型 拟 合 数据 的 好 坏 ， 常 用 于 统计 学 中 。R- 平 方 系数 
具体 测量 目标 变量 的 变异 度 ( degree of variation )， 最 终结 果 为 0 到 1 的 一 个 值 ，1 表 示 模 型 能 够 完 
美 拟 合 数据 。 


6.4.5 ”计算 不 同 度量 下 的 性 能 
根据 上 面 定义 的 函数 ， 我 们 在 bike sharing 数 据 集 上 计算 不 同 度量 下 的 性 能 。 
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1. 线性 模型 


我 们 的 方法 对 RDD 的 每 一 条 记录 应 用 相关 的 误差 丽 数 ， 其 中 线性 模型 的 误差 函数 为 
true_vs_predicted， 相 关 代 码 实 现 如 下 : 


mse = true vs_predicted.map(lambda (t, p): squared error(t, p)) .mean() 
mae = true vs predicted.map(lambda (t, p): abs_error(t, p)) .mean() 
rmsle = np.sqrt (true_ vs_predicted.map(lambda (t, p): squared log_ 
error(t, p)) .mean()) 

print "Linear Model - Mean Squared Error: %$2.4f" %$ mse 

print "Linear Model - Mean Absolute Error: g%2.4f" % mae 

print "Linear Model - Root Mean Squared Log Error: %$2.4f" % rmsle 


输出 如 下 : 
Linear Model - Mean Squared Error: 28166.3824 


Linear Model - Mean Absolute Error: 129.4506 
Linear Model - Root Mean Squared Log Error: 1.4974 


2. 决策 树 
决策 树 的 误差 函数 为 Lrue_vs_predicted_gt， 相 关 代码 如 下 : 


mse_dt = true vs_predicted dt.map(lambda (t, p): squared error(t, p)) .mean () 
mae_dt = true vs_predicted dt.map(lambda (t, p): abs_error(t, p)) .mean() 
rmsle dt = np.sgqrt (true vs predicted dt.map(lambda (t, p): squared_ 
log_error(t, p)) .mean()) 

print "Decision Tree - Mean Squared Error: %2.4f" % mse_ dt 

print "Decision Tree - Mean Absolute Error: %2.4f" % mae_ dt 

print "Decision Tree - Root Mean Squared Log Error: %2.4f" % 

rmsle_dt 


你 应 该 可 以 看 到 如 下 输出 : 


Decision Tree - Mean Squared Error: 11560.7978 
Decision Tree - Mean Absolute Error: 71.0969 
Decision Tree - Root Mean Squared Log Error: 0.6259 


从 结果 来 看 ， 决 策 树 模型 是 性 能 最 好 。 


在 Kaggle 的 榜 单 上 RMSLE 的 平均 分 数 为 1.58, 同时 这 也 表明 我 们 线性 模型 的 
RMSLE 性 能 (1.4974 ) 一 般 。 然 而 ， 决 策 树 在 默认 配置 下 的 RMSLE 性 能 为 0.63 ， 
而 截至 本 书 编写 之 时 ， 获 胜 者 的 的 RMSLE 为 0.29504。 


6.5 ”改进 模型 性 能 和 参数 调 优 
在 第 5 章 中 ， 我 们 知道 特征 变换 和 选择 对 模型 性 能 有 巨大 的 影响 。 本 章 我 们 将 重点 讨论 另外 
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一 种 变换 方式 : 对 目标 变量 进行 变换 。 


6.5.1 变换 目标 变量 


许多 机 咒 学 习 模 型 都 会 假设 输入 数据 和 目标 变量 的 分 布 ， 比 如 线性 模型 的 假设 为 正 态 分 布 。 


但 是 大 多 实际 情况 中 线性 回归 的 这 种 假设 并 不 成 立 , 比如 例子 中 自行 车 被 租 的 次 数 永远 不 可 


能 为 负 。 这 也 表明 正 态 分 布 的 假设 存在 问题 。 为 了 更 好 地 理解 目标 变量 的 分 布 , 最 好 的 方法 是 夯 


出 目标 变量 的 分 布 直方 图 。 


本 节 如 果 你 使 用 IPython Notebook， 可 以 输入 spylab inlie 来 引入 pylab (这 是 numpy 和 


matplot1lib 的 绘 


如 果 你 使 用 标准 的 IPython 控 制 台 ， 可 以 用 spy1lab 来 引入 必要 的 功能 ( 这 样 画 出 来 的 图 表 会 


图 函数 )。 同 时 这 可 以 在 Notebook 中 内 置 任意 图 表 。 


出 现在 男 外 一 个 窗口 )。 


下 面 的 代码 画 出 了 目标 变量 的 分 布 直方 图 : 


targets = records.map(lambda r: float(r[-1])).collect() 
hist(targets, bins=40, color='lightblue', normed=True) 
fig = matplotlib.pyplot.gcf() 

fig.set_size_ inches(16, 10) 


结果 如 图 6-4 所 示 ， 可 以 看 到 其 中 的 分 布 完全 不 符合 正 态 分 布 : 
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图 6-4 ”原始 目标 变量 值 的 分 布 直方 图 
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一 种 解决 的 方法 是 对 目标 变量 进行 变换 ， 比 如 用 目标 值 的 对 数 代 蔡 原始 数值 , 通常 称 为 对 数 
变换 (这 种 变换 也 可 以 应 用 到 特征 值 上 )。 下 面 的 代码 对 所 有 的 目标 值 进 行 对 数 变换 ， 并 画 出 对 
数 变换 后 的 直方 图 : 

log_targets = records.map(lambda r: np.log(float (r[-1]))).collect() 

hist(log_ targets, bins=40, color='lightblue', normed=True) 


fig = matplotlib.pyplot.gcf() 
fig.set_size inches(16, 10) 


| 
0.00 = 
0 


1 2 3 4 S 6 7 


图 6-5 目标 变量 在 对 数 变 换 后 的 直方 图 


男 外 一 种 有 用 的 变换 是 取 平 方 根 , 适用 于 目标 变量 不 为 负数 并 且 值 域 很 大 的 情况 。 下 面 代码 
对 所 有 的 目标 变量 取 平 方 根 ， 然 后 画 出 相应 的 直方 图 : 


sqrt_targets = records.map(lambda r: np.sqrt (float (r[-1]))).collect() 
hist(sqart_ targets, bins=40, color='lightblue', normed=True) 

fig = matplotlib.pyplot.gcf() 

fig.set_size_ inches(16, 10) 


从 对 数 和 平方 根 变换 后 的 结果 来 看 , 得 到 直方 图 都 比 原始 数据 更 均匀 。 虽然 这 两 个 分 布依 然 
不 是 正 态 分 布 ， 但 是 已 经 比 原始 目标 变量 更 接近 正 态 分 布 了 。 
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图 6-6 目标 变量 在 平方 根 变换 后 的 分 布 


对 数 变 换 的 影响 


接 下 来 , 我 们 具体 测试 目标 变量 在 变换 后 对 模型 性 能 的 影响 ,下 面 用 不 同 的 指标 来 评估 对 数 
变换 后 的 数据 。 

首先 , 对 于 线性 模型 , 我 们 将 aumpy 的 1og 函 数 应 用 到 RDD LabeledPoint 中 的 每 个 标签 值 ， 
实现 代码 如 下 : 

data_log = data.map(lambda lp: LabeledPoint (np.log(lp.label), lp.features)) 

然后 ， 在 转换 的 数据 上 训练 线性 回归 模型 ; 

model_log = LinearRegressionWithSsSGD.train(data_ log, iterations=10, step=0.1) 

注意 我 们 变换 了 目标 变量 ， 模 型 得 到 的 预测 值 也 是 取 对 数 的 值 。 因 此 ， 为 了 评估 模型 性 能 ， 
需要 将 进行 指数 运算 计算 得 到 预测 值 转换 回 原始 的 值 ， 这 里 使 用 numpy exp 的 函数 。 下 面 是 具体 
实现 指数 运算 的 代码 : 


true_vs_predicted log = data_log.map(lambda p: (np.exp(p.label), 
np.exp (model_log.predict (p.features)))) 


最 后 计算 模型 的 MSE、MAE 和 RMSLE: 


true_vs_predicted_ log.map(lambda (t, p): squared error(t,p)).mean!() 
true_vs_predicted_ log.map(lambda (t, p): abs_error(t, p)) .mean() 


mse_log 
mae_log 
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rmsle_log = np.sSdGart(true_vs_predqictedq_ log.map(lambda (t, p): squared_ 
log_error(t, p)) .mean() ) 

print "Mean Squared Error: %2.4f" 
print "Mean Absolue Error: %2.4f" mae_log 

print "Root Mean Squared Log Error: %$2.4f" % rmsle_log 

print "Non log-transformed predictions:\n" + str(true vs_predicted.take(3)) 
print "Log-transformed predictions:\n" + str(true vs predicted log.take(3)) 


得 到 输出 结果 如 下 : 


Mean Squared Error: 38606.0875 

Mean Absolue Error: 135.2726 

Root Mean Squared Log Error: 1.3516 

Non log-transformed predictions: 

[(16.0, 119.30920003093594), (40.0, 116.95463511937378), (32.0, 
116.57294610647752)] 

Log-transformed predictions: 

[(15.999999999999998, 45.860944832110015), (40.0, 
43.255903592233274)， (32.0, 42.311306147884252)] 


将 上 述 结果 和 原始 数据 训练 的 模型 性 能 比较 ， 可 以 看 到 我 们 提升 了 RMSLE 的 性 能 ， 但 是 却 
没有 提升 MSE 和 MAE 的 性 能 。 


下 面 对 决 策 树 模 型 做 同样 的 分 析 


data_dt_log = data dt.map(lambda lp: 
LabeledPoint (np.log(lp.label), lp.features)) 
dt_model_log = DecisionTree.trainRegressor (data dt_log,{}) 


preds_log = dt_model_ log.predict (data_dt_log.map(lambda p:p.features)) 
actual_log = data_ dt_log.map(lambda p: p.label) 

true_vs_predicted dt_log = actual_ log.zip(preds_log) .map(lambda (t, 
p): (np.exp(t), np.exp(p))) 


mse_log_dt = true vs_ predicted dt_ log.map(lambda (t, p): squared_ 

error(t, p)).mean() 

mae_log_dt = true vs_ predicted dt_ log.map(lambda (t, p): abs_errorl(t, 

p)) .mean() 

rmsle_ log dt = np.sqrt (true vs_predicted dt_log.map (lambda (t, p): 
squared_log_error(t, p)) .mean()) 

print "Mean Squared Error: %2.4f" mse_log_dt 

print "Mean Absolue Error: %2.4f" mae_log_dt 

print "Root Mean Squared Log Error: %2.4f" %$ rmsle log_dt 

print "Non log-transformed predictions:\n" + str(true vs predicted dt.take(3)) 
print "Log-transformed predictions:\n" + str(true vs predicted dt_ log.take(3)) 


得 到 结果 如 下 ， 这 表明 决策 树 在 变换 后 的 性 能 有 所 下 降 : 


Mean Squared Error: 14781.5760 

Mean Absolue Error: 76.4131 

Root Mean Squared Log Error: 0.6406 

Non log-transformed predictions: 

[(16.0, 54.913223140495866), (40.0, 54.913223140495866), (32.0, 
53.171052631578945)] 


5 
各 
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Log-transformed predictions: 
[(15.999999999999998, 37.530779787154508), (40.0, 
37.530779787154508)， (32.0, 7.2797070993907287)] 


线性 模型 在 经 过 对 数 处 理 后 的 数据 得 到 较 好 的 性 能 是 意料 之 中 。 因 为 本 质 上 
我 们 的 目的 是 最 小 化 均 方差 , 一 旦 把 目标 值 转换 为 对 数值 , 便 可 以 有 效 最 小 化 损 
>》 失 函 数 ， 即 最 小 化 RMSLE。 
a 这 其 实 和 Kaggle 比 赛 要 求 一 致 ， 本 质 上 我 们 可 以 直接 优化 比赛 的 评分 指标 。 
当然 ， 在 实际 中 ， 上 面 的 处 理 是 否 真 的 有 效 ， 还 依赖 于 绝对 误差 的 重要 性 
( RMSLE 本 质 上 是 惩罚 对 相对 误差 而 不 是 绝对 误差 )。 


6.5.2 ”模型 参数 调 优 


本 章 到 目前 为 止 ， 我 们 谈论 了 在 同一 个 数据 集 上 对 MLlib 中 回归 模型 进行 训练 和 评估 的 基本 
概念 。 接 下 来 ， 我 们 使 用 交叉 验证 方法 来 评估 不 同 参数 对 模型 性 能 的 影响 。 


1. 创建 训练 集 和 测试 集 来 评估 参数 


第 一 步 是 为 交叉 验证 创建 训练 集 和 测试 集 。Spark 的 Python API 没 有 提供 与 Scala 中 的 
randomSsplit 类 似 的 方法 ， 因 此 我 们 需要 手动 创建 训练 集 和 测试 集 。 


具体 实现 中 ， 相 对 简单 的 分 割 方法 是 随机 采样 20% 做 测试 集 ， 然 后 剩 下 的 部 分 作为 训练 集 。 
我 们 使 用 sampl e 方 法 进行 随机 采样 得 到 测试 RE 使 用 subt ractByKevy 方 法 得 到 剩 下 的 训练 集 o 


项 


注意 subtractByKey 只 能 用 于 元 素 为 键 - 值 对 的 RDD。 因 此 , 我 们 需要 使 用 zipwithIndex 
处 理 训练 数据 ， 得 到 一 个 (LapeledPoint，index) 的 RDD。 


同时 ， 我 们 还 要 翻转 键 值 对 ， 以 方便 后 续 处 理 。 代 码 如 下 : 
data_ with idx = data.zipWithIindex() .map(lambda (k, v): (v, k)) 


test = data with idx.sample(False, 0.2, 42) 
train = data with idx.subtractByKey (test) 


有 了 两 个 RDD, 我 们 便 可 以 恢复 刚刚 用 于 训练 和 测试 的 数据 的 LabeledPoint 实 例 , 具体 使 
用 map 方 法 : 


train data = train.map(lambda (idx, p): p) 

test_data = test.map(lambda (idx, p) : p) 

train_size = train data.count() 

test_size = test_dqata.count () 

print "Training data size: %d" % train_ size 

print "Test data size: %d" %$ test_size 

print "Total data size: %d " %$ num data 

print "Train + Test size : %d" % (train size + test_size) 
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代码 输出 结果 如 下 ， 得 到 两 个 互 不 重叠 的 训练 集 和 测试 集 ; 


Training data size: 13934 
Test data size: 3445 
Total data size: 17379 
Train + Test size : 17379 


最 后 使 用 同样 的 方法 提取 决策 树 模型 所 需 特征 : 


data with idx dt = qata_dqdt.zipNWithIndqex().map(1ampbdqa (k, v): (v, k)) 
test_dt = data with idx_ dt.sample(False, 0.2, 42) 

train_ dt = data with idx dt.subtractByKey (test_dqt) 

train data_dt = train dt.map(lambda (idx, p): p) 

test_data_ dt = test dt.map(lambda (idx, p) : p) 


2. 参数 设置 对 线性 模型 的 影响 
前 面 已 经 准备 好 了 训练 集 和 测试 集 ， 下 面 我 们 研究 不 同 参数 配置 对 模型 性 能 的 影响 。 首 先 需 


要 为 线性 模型 设计 一 个 评估 方法 , 同时 创建 一 个 辅助 函数 , 实现 在 不 同 的 参数 配置 下 评估 训练 集 
上 和 测试 集 上 的 性 能 。 


我 们 依然 使 用 Kaggle 竞 赛 中 的 RMSLE 作 为 评测 指标 ， 这 样 的 好 处 是 可 以 和 竞赛 排行 榜 的 成 
绩 进行 比较 。 


评估 函数 定义 如 下 : 


def evaluate(train, test, iterations, step, regParam, regType, intercept): 
model = LinearRegressionWithSsSGD.train(train, iterations, step, 
regParam=regParam, regType=regType, intercept=intercept) 
tp = test.map(lambda p: (p.label, model.predict (p.features))) 
rmsle = np.sgqrt (tp.map(lambda (t, p): squared log_error(t, p)). mean()) 
return rmsle 


>》 在 接 下 来 的 几 节 中 , 我 们 将 使 用 SGD 进 行 和 迭代 训练 。 随 机 初始 化 可 能 得 到 略 
QQ 微 不 同 的 结果 ， 但 是 依然 可 比较 。 
(1) 迭代 


从 前 面 对 分 类 模型 的 评估 来 看 , 通常 在 使 用 SGD 训 练 模型 的 过 程 中 , 随 着 迭代 次 数 增加 可 以 
实现 更 好 的 性 能 , 但 是 性 能 在 迭代 次 数 达 到 一 定数 日 时 会 增长 得 越 来 越 慢 。 下面 的 代码 设置 步 长 
为 0.01， 目 的 是 为 了 更 好 说 明 迭 代 次 数 的 影响 : 


params | 

metrics = [evaluate(train data, test_data, param, 0.01, 0.0, '12', 
False) for param in params] 

print params 

print metrics 


~ 
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下 面 的 结果 表明 ， 随 着 迭代 次 数 的 增加 ， 误 差 确 实 有 所 下 降 ( 即 性 能 提高 )， 并 且 下降 速 率 
和 预期 一 样 越 来 越 小 。 有 趣 的 是 ， 当 SGD 优 化 最 终 超 过 最 优 情 况 时 ，RMSLE 的 值 略微 上 升 : 
[1, 5, 10, 20, 50, 100] 


[2.3532904530306888, 1.6438528499254723, 1.4869656275309227, 
1.4149741941240344, 1.4159641262731959, 1.4539667094611679] 


下 面 , 我 们 用 matplot1lib 库 画 出 迭代 次 数 与 RMSLE 的 关系 图 。 为 了 更 好 地 可 视 化 ,我 们 对 
x 轴 进 行 取 对 数 处 理 . 


plot (params, metrics) 
fig = matplotlib.pyplot.gcf() 
pyplot.xscale('log') 
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图 6-7 迭代 次 数 和 性 能 变化 图 


(2) 步 长 
我 们 使 用 如 下 代码 对 步 长 进行 同样 的 分 析 : 


Darams = [OO0lL; :QO0250 O05 Oby; FQ 

metrics = [evaluate(train data, test_data, 10, param, 0.0, '12', 
False) for param in params] 

print params 

print metrics 


输出 如 下 : 
[0.01, 0.025, 0.05, 0.1, 1.0] 


[1.4869656275309227, 1.4189071944747715, 1.5027293911925559, 
1.5384660954019973, nan] 


从 结果 可 以 看 出 为 什么 不 使 用 默认 步 长 来 训练 线性 模型 。 其 中 默认 步 长 为 1.0， 得 到 的 RMSLE 
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结果 为 nan。 这 说 明 SGD 模 型 收敛 到 了 最 差 的 局 部 最 优 解 。 这 种 情况 在 步 长 较 大 的 时 候 容易 出 现 ， 
原因 是 算法 收敛 太 快 而 不 能 得 到 最 优 解 。 


另外 , 小 步 长 与 相对 较 小 的 迭代 次 数 ( 比如 上 面 的 10 次 ) 对 应 的 训练 模型 性 能 一 般 较 差 。 而 
较 小 的 步 长 与 较 大 的 迭代 次 数 下 通常 可 以 收敛 得 到 较 好 的 解 。 


通常 来 讲 ,， 步 长 和 迭代 次 数 的 设 定 需要 权衡 。 较 小 的 步 长 意味 着 收敛 速度 慢 , 需要 较 大 的 迭 
代 次 数 。 但 是 较 大 的 迭代 次 数 更 加 耗 时 ， 特 别 是 在 大 数据 集 上 。 


选择 合适 的 参数 是 一 个 复杂 的 过 程 ,需要 在 不 同 的 参数 组 合 下 训练 模型 并 选 
a 择 最 好 的 结果 。 每 次 模型 的 训练 都 需要 迁 代 ， 这 个 过 程 计算 量 大 且 非 常 耗 时 ， 在 
大 数据 集 上 尤其 明显 。 


是 随 着 步 长 变化 对 预测 结果 的 影响 : 


154 


152 


150 


148 


图 6-8 ” 步 长 变化 对 性 能 的 影响 
(3) L2 正 则 化 


通过 第 5 章 的 学 习 , 我 们 知道 正则 化 是 添加 一 个 关于 模型 权重 向 量 的 函数 作为 损失 项 , 来 惩罚 
模型 的 复杂 度 。 其 中 L2 正 则 化 则 是 对 权重 向 量 进 行 L2-norm 惩 罚 ， 而 LI 正则 化 进行 LI-norm 惩 罚 。 


我 们 知道 随 着 正则 化 的 提高 , 训练 集 的 预测 性 能 会 下 降 , 因为 模型 不 能 很 好 拟 合 数据 。 但 是 ， 
我 们 希望 设置 合 适 的 正 刚 化 参数 人 E 够 在 测试 集 上 达到 最 好 的 性 能 , 最 终 得 到 一 个 泛 化 能 力 最 优 
的 模型 。 


我 们 在 下 面 的 代码 中 评估 不 同 L2 正 则 化 参数 对 性 能 的 影响 : 
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Darameme:(EOy QO ‘00k. Ol OQ BuO LOO 050] 

metrics = [evaluate(train data, test_ data, 10, 0.1, param, '12', 
False) for param in params] 

print params 

print metrics 

plot (params, metrics) 

fig = matplotlib.pyplot.gcf() 

pyplot.xscale('log') 


正如 前 面 所 分 析 的 ， 存 在 一 个 使 得 测试 集 上 RMSLE 性 能 最 优 的 正则 化 参数 : 


[0.0, 0.01, 0.1, 1.0, 5.0, 10.0, 20.0] 

[1.5384660954019971, 1.5379108106882864, 1.5329809395123755, 
1.4900275345312988, 1.4016676336981468, 1.40998359211149, 
1.5381771283158705] 


为 了 更 清晰 地 展示 结果 ,我 们 使 用 图 6-9 进 行 展示 ， 其 中 横 轴 的 正则 化 参数 进行 了 对 数 缩放 : 


0 10” 108 101 107 


图 6-9 不 同 正 则 化 参数 下 的 性 能 
(LI 正则 化 
以 下 代码 使 用 同样 的 方法 测试 不 同 LI 正则 化 参数 对 性 能 的 影响 ; 


params el[O 0 O00 0d; Td L000; L000; £000:0 

metrics = [evaluate(train data, test_ data, 10, 0.1, param, '11', 
False) for param in params] 

print params 

print metrics 

plot (params, metrics) 

fig = matplotlib.pyplot.gcf() 

pyplot.xscale('log') 


同样 ,为 了 更 清晰 地 展示 结果 ， 下 面 用 图 6-10 展 示 。 从 图 中 可 以 看 到 ， 当 使 用 一 个 较 大 的 正 
则 化 参数 时 ，RMSLE 性 能 急剧 下 降 。L1 正 则 化 参数 比 L2 要 大 ,但 是 总 体 性 能 较 差 。 
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[0.0, 0.01, 0.1, 
[1.5384660954019971, 
1.5372017600929164, 


1.0, 


10.0, 100.0, 1000. 
1.5384518080419873, 
1.5303809928601677， 


0] 
1.5383237472930684, 
1.4352494587433793， 


4.7551250073268614] 


5.0 
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40 
35 
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20 
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图 6-10 不 同 的 LI 正则 化 参数 对 性 能 的 影响 


另外 , 使 用 LI 正则 化 可 以 得 到 稀 玻 的 权重 向 量 。 为 了 在 本 例 中 验证 , 我 们 来 统计 随 着 正则 化 
的 提高 ， 权 重 向 量 中 0 的 个 数 : 
model_11 = LinearRegressionWithSsGD.train(train data, 10, 0.1, 


regParam=1.0, regType='11', intercept=False) 
model_11_ 10 = LinearRegressionWithSsSGD.train(train data, 10, 0.1, 


regParam=10.0, 


regType='11', 


model_11_100 


intercept=False) 


LinearRegressionWithSsGD 


regParam=100.0, 


regType=" 


| 


intercep 


.train(train_ data, 
t=False) 


10, 


90: 


Ls 


print "L1 (1.0) number of zero weights: " + str(sum(model_]11.weights. 
array == 0)) 

print "L1 (10.0) number of zeros weights: " + str(sum(model_11 10. 
weights.array == 0)) 

print "L1 (100.0) number of zeros weights: " + 


str(sum(model_11 100.weights.array == 0)) 


从 下 面 的 结果 可 以 看 出 ， 和 我 们 预料 的 一 致 ， 随 着 L1 的 正则 化 参数 越 来 越 大, 模型 的 权重 向 
量 中 0 的 数目 也 越 来 越 大 : 


L1 (1.0) number of zero weights: 4 

L1 (10.0) number of zeros weights: 20 

L1 (100.0) number of zeros weights: 55 

(5) 截 距 

线性 模型 最 后 可 以 设置 的 参数 表示 是 否 使 用 截 距 ( intercept )。 截 距 是 添加 到 权重 向 量 的 常数 
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项 ,可 以 有 效 地 影响 目标 变量 的 中 值 。 如 果 数 据 已 经 被 归 一 化 ， 截 距 则 没有 必要 。 但 是 理论 上 截 
距 的 使 用 并 不 会 带 来 坏处 。 


下 面 的 代码 用 来 评估 截 距 项 对 模型 的 影响 : 


params = [False, True] 

metrics = [evaluate(train data, test_data, 10, 0.1, 1.0, '12', param) 
for param in params] 

print params 

print metrics 

bar (params, metrics, color='lightblue') 

fig = matplotlib.pyplot.gcf() 


代码 输出 结果 如 下 ， 通 过 图 6-11 可 以 发 现 截 距 项 的 使 用 造成 了 RMSLE 的 值 略 微 增加 : 


[False, True] 
[1.4900275345312988, 1.506469812020645] 
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图 6-11 截 距 的 使 用 对 性 能 的 影响 
3. 参数 设置 对 决策 树 性 能 的 影响 


决策 树 提 供 了 两 个 主要 的 参数 : 最 大 的 树 深 度 和 最 大 划分 数 。 我 们 使 用 与 前 面 类 似 的 方法 ， 
评估 不 同 的 参数 下 决策 树 模 型 的 性 能 。 首先 实现 一 个 评估 函数 evaluate_dt: 


def evaluate dt (train, test, maxDepth, maxBins): 
model = DecisionTree.trainRegressor (train, {}, 
impurity='variance', maxDepth=maxDepth, maxBins=maxBins) 
preds = model.predict (test.map(lambda p: p.features)) 
actual = test.map(lambda p: p.label) 
tp = actual.zip (preds) 
rmsle = np.sgaqrt (tp.map(lambda (t, p): squared log_error(t, p)).mean()) 
return rmsle 
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(1) 树 深度 


我 们 通常 希望 用 更 复杂 ( 更 深 ) 的 决策 树 提升 模型 的 性 能 。 而 较 小 的 树 深 度 类 似 正 则 化 形式 ， 
如 线性 模型 的 L2 和 L1 正 则 化 ， 存 在 一 个 最 优 的 树 深度 能 在 测试 集 上 获得 最 优 的 性 能 。 


下 面 ， 我 们 尝试 增加 树 的 深度 ,测试 树 的 深度 对 测试 集 上 RMSLE 性 能 的 有 影响， 固定 划分 数 
为 默认 值 32: 


paramse = Tl; 273%, 4 Bi 10';=20] 

metrics = [evaluate dt (train data dt, test_data dt, param, 32) for 
param in params] 

print params 

print metrics 

plot (params, metrics) 

fig = matplotlib.pyplot.gcf() 


在 这 个 例子 中 , 深度 较 大 的 决策 树 出 现 过 拟 合 ,从 结果 来 看 这 个 数据 集 最 优 的 树 深度 大 概 在 
10 左 右 。 


| 注意 我 们 最 好 的 RMSLE 为 0.42， 接 近 Kaggle 获 胜 者 的 0.29 了 。 
不 同 树 深度 性 能 的 计算 结果 如 下 : 


[1.0280339660196287, 0.92686672078778276, 0.81807794023407532, 
0.74060228537329209, 0.63583503599563096, 0.42851360418692447, 
0.45500008049779139] 


Ll 


10r 


0.9 上 


08 


0 5 10 15 20 


图 6-12 ”不同 树 深度 下 的 性 能 
(2) 最 大 划分 数 
最 后 ,我 们 来 评估 划分 数 对 决策 树 性 能 的 影响 。 和 树 的 深度 一 样 ， 更 多 的 划分 数 会 使 模型 变 
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复杂 , 并 且 有 助 于 提升 特征 维度 较 大 的 模型 性 能 。 划 分 数 到 一 定 程 度 之 后 ， 对 性 能 的 提升 帮助 不 


大 。 实 际 上 ， 由 于 过 拟 合 的 原因 会 导致 测试 集 的 性 能 变 差 。 
parans. sr [2 人 二 出 6 区 645 “E00 
metrics = [evaluate dt (train data dt, test data dt, 5, param) for 


param in params] 

print params 

print metrics 

plot (params, metrics) 

fig = matplotlib.pyplot.gcf() 


下 面 是 预测 结果 ， 以 及 不 同 划分 数 对 性 能 的 影响 图 ( 树 的 深度 固定 为 5 )。 这 个 例子 中 , 使 用 
小 划分 数目 会 有 损 性 能 ， 而 当 划 分 数目 达到 30 后 对 性 能 几乎 没有 影响 。 从 结果 中 来 看 ， 最 优 的 划 
分 数 配 置 在 16~20 之 间 : 


[2, 4, 8, 16, 32, 64, 100] 


[1.3069788763726049, 0.81923394899750324, 0.75745322513058744, 
0.62328384445223795, 0.63583503599563096, 0.63583503599563096, 
0.63583503599563096] 


0 20 各 的 0 100 


图 6-13 不 同 的 最 大 划分 数目 对 性 能 的 影响 


6.6 小结 


本 章 讨论 了 基于 Python 使 用 MLlib 中 的 线性 模型 和 决策 树 模型 进行 回归 分 析 。 我 们 研究 了 回 
归 问 题 中 类 型 特征 的 抽取 和 对 目标 变量 做 变换 的 影响 。 最 后 ， 我 们 实现 了 不 同 的 性 能 评 佑 指标 ， 
并 且 设计 了 交叉 验证 实验 ， 研 究 线性 模型 和 决策 树 模 型 的 不 同 参数 对 测试 集 性 能 的 影响 。 


下 一 章 ， 我 们 将 讨论 机 器 学 习 中 新 的 方法 : 无 监督 学 习 ， 特 别 是 聚 类 模型 。 
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前 面 几 章 ,我 们 介绍 了 监督 学 习 ， 其 中 训练 数据 都 标记 了 需要 被 预测 的 真实 值 ( 比如 推荐 系 
统 的 打分 、 分 类 的 类 别 ， 或 者 回归 预测 为 实数 的 目标 变量 )。 


接 下 来 , 我 们 将 考虑 数据 没有 标注 的 情况 , 具体 模型 称 作 无 监督 学 习 ， 即 模型 训练 过 程 中 没 
有 被 目标 标签 监督 。 实 际 应 用 中 , 无 监督 的 例子 非常 常见 ， 原 因 是 在 许多 真实 场景 中 , 标注 数据 
的 获取 非常 困难 ， 代 价 非常 大 ( 比如， 人 工 为 分 类 模型 标注 训练 数据 )。 但 是 ， 我 们 仍然 想 要 从 
数据 中 学 习 基 本 的 结构 用 来 做 预测 。 


这 就 是 无 监督 学 习 方法 发 挥 作用 的 情形 。 通常 无 监督 学 习 会 和 监督 模型 相 结 合 ， 比 如 使 用 无 
监督 技术 为 监督 模型 生成 输入 数据 。 


在 很 多 情况 下 ， 聚 类 模型 等 价 于 分 类 模型 的 无 监督 形式 。 用 分 类 的 方法 , 我们 可 以 学 习 分 类 
模型 ， 预 测 给 定 训练 样本 属于 哪个 类 别 。 这 个 模型 本 质 上 就 是 一 系列 特征 到 类 别 的 映射 。 


在 聚 类 中 ,我 们 把 数据 进行 分 割 ， 这 样 每 个 数据 样本 就 会 属于 某 个 部 分 称 为 类 簇 。 类 簇 相 
当 于 类 别 ， 只 不 过 不 知道 真实 的 类 别 。 


聚 类 模型 的 很 多 应 用 和 分 类 模型 一 样 ， 比 如 : 


口 基于 行为 特征 或 者 元 数据 将 用 户 或 者 客户 分 成 不 同 的 组 ; 

口 对 网 站 的 内 容 或 者 零售 店 中 的 商品 进行 分 组 ; 

口 找到 相似 基因 的 类 ; 

口 在 生态 学 中 进行 群体 分 割 ; 

口 创建 图 像 分 割 用 于 图 像 分 析 的 应 用 ， 比 如 物体 检测 。 

本 章 ， 我 们 将 : 

口 简略 讨论 一 些 分 类 模型 的 类 型 ; 

口 从 数据 中 提取 特征 ， 具 体 来 说 就 是 将 某 个 模型 的 输出 当 作 唆 类 模型 的 输入 特征 ; 
口 训练 分 类 模型 并 且 做 预测 ; 

口 应 用 性 能 评估 和 参数 选择 技术 来 选择 最 优 的 聚 类 个 数 。 
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7.1 聚 类 模型 的 类 型 


聚 类 模型 有 很 多 种 ， 从 简单 到 复杂 都 有 。MLlib 库 目前 提供 了 K- 均 值 聚 类 算法 ， 这 是 最 简单 
的 聚 类 算法 之 一 ， 但 也 非常 有 效 ， 而 简单 通常 意味 着 相对 容易 理解 和 扩展 。 


7.1.1 K- 均 值 聚 类 


KK- 均 值 算法 试图 将 一 系列 样本 分 割 成 K 个 不 同 的 类 簇 ( 其 中 K 是 模型 的 输入 参数 )。 天 -均值 聚 
类 的 目的 是 最 小 化 所 有 类 簇 中 的 方差 之 和 ， 其 形式 化 的 目标 函数 称 为 类 簇 内 的 方差 和 ( within 


cluster sum of squared errors, WCSS): 


n nn 


Dx) =u)) 


换 句 话说 ， 就 是 计算 每 个 类 簇 中 样本 与 类 中 心 的 平方 差 ， 并 在 最 后 求 和 。 


标准 的 K- 均 值 算法 初始 化 K 个 类 中 心 (为 每 个 类 簇 中 所 有 样本 的 平均 向 量 ), 后 面 的 过 程 不 断 
重复 欠 代 下 面 两 个 步骤。 


(1) 将 样本 分 到 WCSS 最 小 的 类 簇 中 。 因 为 方差 之 和 为 欧 拉 距 离 的 平方 , 所 以 最 后 等 价 于 将 每 
个 样本 分 配 到 欧 拉 距 离 最 近 的 类 中 心 。 


(2) 根据 第 一 步 类 分 配 情 况 重 新 计算 每 个 类 簇 的 类 中 心 。 


KK- 均 值 迭代 算法 结束 条 件 为 达到 最 大 的 迭代 次 数 或 者 收敛 ,收敛 意味 着 第 一 步 类 分 配 之 后 没 
有 改变 ， 因 此 WCSS 的 值 也 没有 改变 。 


AI 要 了 解 更 多 信息 ， 请 查阅 Spark 文 档 中 关于 聚 类 的 部 分 ( http://spark.apache. 
Q org/docs/latest/mllib-clustering.html ) 或 者 维基 百科 ( http://en.wikipedia.org/ wiki/K- 


means_clustering )。 


为 了 说 明天 -均值 的 基础 知识 ,我们 使 用 第 $ 章 的 多 类 别 分 类 中 的 数据 集 ， 其 中 有 5 个 类 ， 如 下 
图 7-1 所 示 : 
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图 7-1 多 类 别 数据 集 


于 是 ,假定 我 们 不 知道 真实 分 类 ， 然 后 应 用 5 个 类 簇 的 K- 均 值 算法 ， 经 过 一 次 迭代 ， 得 到 如 
图 7-2 所 示 模 型 的 类 簇 标记 : 


图 7-2 ”第 一 次 迭代 后 的 类 簇 标记 


可 以 看 到 K- 均 值 已 经 可 以 很 好 地 找到 每 个 类 簇 的 中 心 。 下 一 次 迭代 , 类 簇 的 标记 应 该 如 图 7-3 
所 示 : 
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图 7-3 ”第 二 次 欠 代 后 的 类 得 标记 


第 二 次 友 代 之 后 类 簇 开 始 变 得 稳定 ， 但 是 类 簇 标 记 大 致 和 第 一 次 欠 代 相同 。 一 旦 模型 收敛 ， 
最 终 类 簇 标注 大 概 如 图 7-4 所 示 : 
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图 7-4 天 -均值 最 后 聚 类 结果 


可 以 看 出 , 天 -均值 聚 类 模型 对 5 个 类 簇 分 割 结果 还 不 错 。 其 中 , 左边 的 三 个 类 簇 比较 准确 (部 
分 错误 ), 但 是 右 下 角 的 两 个 类 簇 却 不 是 很 准确 。 
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这 说 明 : 

口 K- 均 值 本 质 上 是 迭代 过 程 ; 

口 模型 依赖 初始 化 时 类 中 心 的 选择 ( 这 里 指 随机 选择 类 中 心 ); 

口 最 后 的 类 艇 分 配 可 以 很 好 地 分 制 数据 ,但 是 对 于 较 难 的 数据 分 割 也 会 不 好 。 

1. 初始 化 方法 

-均值 的 标准 初始 化 方法 通常 称 为 随机 方法 ， 即 在 开始 时 随机 给 每 个 样本 分 配 一 个 类 艇 。 
MLlib 提 供 了 KK- 均 值 + 初 始 化 方法 的 并 行 实现 版 本 , 叫 K-meansj|, 这 也 是 默认 的 初始 化 方法 。 


更 多 资料 请 查看 http://en.wikipedia.org/wiki/K-means_clustering#Initialization_ 
一 methods 和 http://en.wikipedia.org/wiki/K-means%2B%2B, 


使 用 K- 均 值 + 的 结果 如 图 7-5 所 示 。 从 结果 来 看 ， 右 下 角 大 部 分 样本 聚 类 正确 : 
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图 7-5 KK- 均 值 + 的 聚 类 结果 


2. K- 均 值 变种 


目前 有 许多 K- 均 值 的 变种 ,它们 的 不 同 重点 集中 于 初始 化 方法 或 者 核心 模型 。 其 中 一 个 最 常 
见 的 变种 是 模糊 及 -均值 (名 zzy K-means )。 这 个 模型 没有 像 K- 均 值 那样 对 每 个 样本 分 配 一 个 类 簇 
(或 者 称 为 硬 分 配 ), 而 是 KK- 均值 的 多 分 配 版 本 ， 即 每 个 样本 可 以 属于 多 个 类 簇 并 被 表示 为 样本 与 
每 个 类 艇 的 相对 关系 。 于 是 ， 当 类 簇 树 为 K 时 ， 每 个 样本 会 被 表示 为 K 维 的 关系 向 量 ， 疝 量 中 的 
每 一 项 指示 对 应 的 类 艇 。 
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7.1.2 ”混合 模型 


混合 模型 本 质 上 是 模糊 K- 均 值 的 扩展 , 但 是 混合 模型 假设 样本 的 数据 是 由 某 种 概率 分 布 产生 
的 。 比 如 ， 我 们 可 以 假设 样本 是 由 K 个 独立 的 高 斯 概率 分 布 生成 的 。 类 簇 的 分 布 是 软 分 配 ， 所 以 
每 个 样本 由 K 个 概率 分 布 的 权重 表示 。 


| 更 多 细节 和 混合 模型 数学 的 描述 见 http://en.wikipedia.org/wiki/Mixture_ | 
一 mod 


el]。 


7.1.3 ”层次 聚 类 
层次 聚 类 (hierarchical clustering ) 是 一 个 结构 化 的 聚 类 方法 ， 最 终 可 以 得 到 多 层 的 聚 类 结 
果 ， 其 中 每 个 类 复 可 能 包含 多 个 子 类 簇 。 因 为 每 个 子 类 复 和 父 类 簇 连 接 ， 所 以 这 种 形式 也 称 为 
树 形 聚 类 。 
层次 聚 类 分 为 两 种 : 凝聚 聚 类 ( agglomerative clustering ) 和 分 裂 式 聚 类 ( divisive clustering )。 
族 聚 聚 类 的 方法 是 自 底 向 上 的 : 
口 每 个 样本 自身 作为 一 个 类 簇 ; 
口 计算 与 其 他 类 徐 的 相似 度 ; 
口 找到 最 相似 的 类 徐 ， 然 后 合并 组 成 新 的 类 簇 ; 
口 重复 上 述 过 程 ， 直 到 最 上 层 只 留 下 一 个 类 艇 。 


分 裂 式 聚 类 是 自 上 而 下 的 方法 ， 过 程 刚好 和 凝聚 聚 类 相反 。 刚 开始 所 有 样本 属于 一 个 类 簇 ， 
然后 接 下 来 每 一 步 将 每 个 类 簇 一 分 为 二 ， 最 后 直到 所 有 的 样本 在 底层 独自 为 一 个 类 簇 。 


| 更 多 资料 ， 请 看 http:/en.wikipedia.org/wiki/Hierarchical _ clustering。 ] 


7.2 ”从 数据 中 提取 正确 的 特征 
类 似 大 多 数 机 器 学 习 模型 ,及 -均值 聚 类 需要 数值 向 量 作为 输入 , 于 是 用 于 分 类 和 回归 的 特征 
提取 和 变换 方法 也 适用 于 聚 类 。 


KK- 均 值 和 最 小 方差 回归 一 样 使 用 方差 匈 数 作为 优化 目标 ， 因 此 容易 受到 离 群 值 (outlier ) 和 
较 大 方差 的 特征 影响 。 


对 于 回归 和 分 类 问题 来 说 ,上述 问 题 可 以 通过 特征 的 归 一 化 和 标准 化 来 解决 , 同时 可 能 有 助 
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升 性 能 。 但 是 某 些 情况 我 们 可 能 不 希望 数据 被 标准 化 ， 比 如 根据 某 个 特定 的 特征 找到 对 应 的 


从 MovieLens 数 据 集 提取 特征 

本 章 中 ， 我 们 将 使 用 第 4 章 推荐 引擎 中 使 用 的 电影 打分 数据 集 ， 这 个 数据 集 主 要 分 为 三 个 部 
分 : 第 一 个 是 电影 打分 的 数据 集 ( 在 u.data 文 件 中 ) , 第 二 个 是 用 户 数据 (uuser )， 第 三 个 是 电影 
数据 (uitem )。 除 此 之 外 ， 我 们 从 题材 文件 中 获取 了 每 个 电影 的 题材 (u.genre )。 


以 下 代码 输出 电影 数据 集 的 首 行 : 


val movies = sc.textFile("/PATH/m1l-100k/u.item") 
println(movies.first) 


输出 内 容 如 下 : 


llToy Story (1995)|101-Jan-1995| |http://us.imdb.com/M/title-exact?Toy%20 
Story%20(1995)10101011111110101010101010101010101010 


到 目前 为 止 ,我 们 既 知 道 电影 的 名 称 ， 也 将 电影 按 题 材 分 类 。 那 为 什么 还 需要 对 电影 数据 进 
行 聚 类 呢 ? 具体 原因 有 两 个 。 
口 第 一 ， 因 为 我 们 知道 每 部 电影 的 题材 标签 ， 所 以 可 以 用 这 些 标签 评估 聚 类 模型 的 性 能 。 
口 第 二 ， 我 们 希望 基于 其 他 属性 或 特征 对 电影 进行 分 类 ， 而 不 单单 是 题材 。 

本 例 中 , 除了 题材 和 标题 , 我们 还 有 打分 数据 用 于 聚 类 。 之前, 我 们 已 经 根据 打分 数据 建立 
了 一 个 矩阵 分 解 模型 ， 这 个 模型 由 一 系列 用 户 和 电影 因素 向 量 组 成 。 

我 们 可 以 思考 怎样 在 一 个 新 的 隐 式 特征 空间 中 用 电影 相关 的 因素 表示 一 部 电影 , 反 过 来 说 就 
是 用 隐 式 特征 表示 打分 矩阵 中 一 些 特定 形式 的 结构 。 每 个 隐 式 特征 无 法 直接 解释 ,因为 它们 表示 
一 些 可 以 影响 用 户 对 电影 打分 行为 的 隐 式 结构 。 可 用 的 因素 有 用 户 对 题材 的 偏好 、 演员 和 导演 或 
者 电影 的 主题 等 。 

因此 , 如 果 将 电影 的 相关 因素 向 量 表 示 作 为 聚 类 模型 的 输入 , 我 们 可 以 得 到 基于 用 户 实际 打 
分 行为 的 分 类 而 不 是 人 工 的 题材 分 类 。 

同样 , 我 们 可 以 在 打分 行为 的 隐 式 特征 空间 中 用 用 户 相 关 因 素 表 示 一 个 用 户 , 因此 对 用 户 向 
量 进 行 聚 类 ， 就 得 到 了 基于 用 户 打 分 行为 的 聚 类 结果 。 

1. 提取 电影 的 题材 标签 

在 进一步 处 理 之 前 , 我 们 先 从 u.genre 文 件 中 提取 题材 的 映射 关系 。 根据 之 前 对 数据 集 的 输出 
结果 来 看 ， 需 要 将 题材 的 数字 编号 映射 到 可 读 的 文字 版 本 。 查 看 u.genre 开 始 几 行 数据 : 


val genres = sc.textFile("/PATH/ml-100k/u.genre") 
genres.take(5).foreach (println) 
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输出 结果 如 下 : 


unknown|0 
Action|1 
Adventurel2 
Animation|3 
Children's|4 


上 面 输 出 的 数字 表示 相关 题材 的 索引 ， 比 如 0 是 unknown 的 索引 。 索 引 对 应 了 每 部 电影 关于 


题材 的 特征 二 值 子 向 量 ( 即 前 面 数据 中 的 0 和 1 )。 


为 了 提取 题材 的 映射 关系 ， 我 们 对 每 一 行 数据 进行 分 割 ， 得 到 具体 的 < 题材 ， 索 引 > 键 值 对 。 


注意 处 理 过程 中 需要 处 理 最 后 的 空 行 ， 不 然 会 抛 出 异常 ( 见 代 码 中 高 亮 部 分 ): 


val genreMap = genres.filter(!_.isEmpty) .map(line => line. 
split("\\|")) .map(array => (array (1), array (0))).collectAsMap 
println (genreMap) 


上 面 代码 的 输出 : 


Map(2 -> Adventure, 5 -> Comedy, 12 -> Musical, 15 -> Sci-Fi, 8 -> Drama, 
18 -> Western, ... 


接 下 来 , 我 们 需要 为 电影 数据 和 题材 映射 关系 创建 新 的 RDD , 其 中 包含 电影 ID 标题 和 题材 。 


当 我 们 用 夷 类 模型 评估 每 个 电影 的 类 别 时 ， 可 以 用 生成 的 RDD 得 到 可 读 的 输出 。 


后 


接 下 来 的 代码 中 ,我 们 对 每 部 电影 提取 相应 的 题材 (是 Strings 形 式 而 不 是 Int 索 引 )。 然 


， 使 用 zipwithIndex 方 法 统计 包含 题材 索引 的 集合 ， 这 样 就 能 将 集合 中 的 索引 映射 到 对 应 的 


文本 信息 。 最 后 ， 输 出 RDD 第 一 条 记录 : 


hl 


val titlesAndGenres = movies.map(_.split("\\|")).map { array => 
val genres = array.toSegq.slice(5, array.size) 
val genresAssigned = genres.zipWithIndex.filter { case (g, idx) 
=> 
== "1" 
}.map { case (g, idx) => 
genreMap (idx.toString) 
} 
(array (0) .toInt, (array (1), genresAssigned)) 
} 


printlin(titlesAndGenres.first) 
代码 输出 如 下 : 
(1, (Toy Story (1995),ArrayBuffer(Animation, Children's, Comedy))) 


2. 训练 推荐 模型 
要 获取 用 户 和 电影 的 因素 向 量 ， 首 先 需 要 训练 一 个 新 的 推荐 模型 。 我 们 在 第 4 章 做 过 类 似 的 


了 情 ， 因 此 接 下 来 使 用 相同 的 步 又 : 
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import org.apache.spark.mllib.recommendation.ALS 

import org.apache.spark.mllib.recommendation.Rating 

val rawData = sc.textFile("/PATH/ml-100k/u.data") 

val rawRatings = rawData.map(_.split("\t").take(3)) 

val ratings = rawRatings.map{ case Array (user, movie, rating) => 
Rating (user.toInt, movie.toInt, rating.toDouble) } 

ratings.cache 

val alsModel = ALS.train(ratings, 50, 10, 0.1) 


第 4 章 中 ， 最 小 二 乘法 ( Alternating Least Squares，ALS ) 模型 返回 了 两 个 键 值 RDD ( user- 
Features 和 productFeatures )。 这 两 个 RDD 的 键 为 用 户 ID 或 者 电影 ID ， 值 为 相关 因素 。 我 们 
还 需要 提取 相关 的 因素 并 转化 到 MLlib 的 vector 中 作为 聚 类 模型 的 训练 输入 。 


下 面 代码 分 别 对 用 户 和 电影 进行 处 理 : 


yy 


import org.apache.spark.mllib.linalg.Vectors 

val movieFactors = alsModel.productFeatures.map { case (id, factor) => 
(id, Vectors.dense(factor)) } 

val movieVectors = movieFactors.map(_._2) 

val userFactors = alsModel.userFeatures.map { case (id, factor) => 
(id, Vectors.dense (factor)) } 

val userVectors = userFactors.map(_._2) 


3. 归 一 化 


在 训练 聚 类 模型 之 前 ,有 必要 观察 一 下 输入 数据 的 相关 因素 特征 向 量 的 分 布 , 这 可 以 告诉 我 
们 是 否 需 要 对 训练 数据 进行 归 一 化 。 具 体 做 法 和 第 5 章 一 样 ， 我 们 使 用 MLlib 中 的 RowMatrix 进 
行 各 种 统计 ， 代 码 实现 如 下 : 

import org.apache.spark.mllipb.linalg.distributed.RowMatrix 


val movieMatrix = new RowMatrix(movieVectors) 
val movieMatrixSummary = 


movieMatrix.computeColumnSummaryStatistics!() 
val userMatrix = new RowMatrix(userVectors) 

val userMatrixSummary = 

userMatrix.computeColumnSummaryStatistics() 


println("Movie factors mean: " + movieMatrixSummary .mean) 
println("Movie factors variance: " + movieMatrixSummary .variance) 
println("User factors mean: " + userMatrixSummary .mean) 
println("User factors variance: " + userMatrixSummary .variance) 
人 

输出 如 下 : 


Movie factors mean: [0.28047737659519767,0.26886479057520024,0.2935579964 
446398,0.27821738264113755, 

Movie factors variance: [0.038242041794064895,0.03742229118854288,0.04411 
6961097355877,0.057116244055791986, 

User factors mean: [0.2043520841572601,0.22135773814655782,0.214970631841 
8221,0.23647602029329481, 

User factors variance: [0.037749421148850396,0.02831191551960241,0.032831 
876953314174,0.036775110657850954, 
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从 结果 来 看 ， 没 有 发 现 特别 的 离 群 点 会 影响 聚 类 结果 ， 因 此 本 例 中 没有 必要 进行 归 一 化 。 


7.3 训练 聚 类 模型 


在 MLlib 中 训练 K- 均 值 的 方法 和 其 他 模型 类 似 , 只 要 把 包含 训练 数据 的 RDD 传 人 KMeans 对 象 
的 train 方 法 即 可 。 注 意 ， 因 为 聚 类 不 需要 标签 ， 所 以 不 用 LabeledPoint 实 例 ， 而 是 使 用 特征 
向 量 接口 ， 即 RDD 的 Vector 数组 即 可 。 


用 MovieLens 数 据 集训 练 聚 类 模型 
MLlib 的 K- 均 值 提 供 了 随机 和 K-means|| 两 种 初始 化 方法 ， 后 者 是 默认 初始 化 。 因 为 两 种 方法 
都 是 随机 选择 ， 所 以 每 次 模型 训练 的 结果 都 不 一 样 。 


KK- 均 值 通常 不 能 收敛 到 全 局 最 优 解 ， 所 以 实际 应 用 中 需要 多 次 训练 并 选择 最 优 的 模型 。 
MLlib 提 供 了 完成 多 次 模型 训练 的 方法 。 经 过 损失 函数 的 评估 , 将 性 能 最 好 的 一 次 训练 选 定 为 最 
终 的 模型 。 


代码 实现 中 ， 首 先 需 要 引入 必要 的 模块 ， 设 置 模型 参数 : K (numclusters )、 最 大 迭代 次 
数 (numIteration ) 和 训练 次 数 (numRuns ): 


import org.apache.spark.mllib.clustering.KMeans 


val numClusters = 5 
val numIterations = 10 
val numRuns = 3 
本 sy J A y 
然后 ， 对 电影 的 系数 向 量 运行 K- 均 值 算法 : 
val movieClusterModel] = KMeans.train(movieVectors, numClusters, 


numIterations, numRuns) 


一 旦 模型 训练 完成 ， 我 们 将 看 到 类 似 如 下 的 结果 : 


14/09/02 21:53:58 INFO SparkContext: Job finished: collectAsMap at 
KMeans.scala:193, took 0.02043 s 

14/09/02 21:53:58 INFO KMeans: Iterations took 0.331 seconds. 
14/09/02 21:53:58 INFO KMeans: KMeans reached the max number of 
iterations: 10. 

14/09/02 21:53:58 INFO KMeans: The cost for the best run is 
2586.298785925147. 


movieClusterModel: org.apache.spark.mllib.clustering.KMeansModel = org. 
apache.spark.mllib.clustering.KMeansModel@71c6f512 


从 上 面 的 输出 来 看 , 模型 训练 达到 了 最 大 的 迭代 次 数 ， 所 以 训练 过 程 不 会 根据 收敛 准则 过 早 
停止 。 而 且 结 果 还 显示 模型 最 优 时 训练 数据 集 的 误差 (K- 均 值 目标 函数 的 值 )。 下 面 我 们 设置 更 
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大 的 迭代 次 数 作为 说 明 K- 均 值 模型 


型 收敛 的 例子 : 


val movieClusterModelConverged = KMeans.train (movieVectors, 


numClusters, 100) 


在 模型 的 输出 中 可 以 看 到 “KMeans converged in ... iterations”， 这 表示 在 多 少 次 迭代 之 后 ， 


天 -均值 模型 已 经 收敛 : 


14/09/02 22:04:38 INFO SparkContext : Job finished: collectAsMap at 
KMeans.scala:193, took 0.040685 s 

14/09/02 22:04:38 INFO KMeans: Run 0 finished in 34 iterations 
14/09/02 22:04:38 INFO KMeans: Iterations took 0.812 seconds. 
14/09/02 22:04:38 INFO KMeans: KMeans converged in 34 iterations. 
14/09/02 22:04:38 INFO KMeans: The cost for the best run is 


2584.9354332904104. 


movieClusterModelConverged: org.apache.spark.mllib.clustering.KMeansModel 
= org.apache.spark.mllib.clustering.KMeansModel@6bb28fb5 


I 注意 , 当 我 们 使 用 较 小 的 迭代 次 数 进行 多 次 训练 时 , 通 


到 的 训练 误差 和 


常 得 
经 收敛 的 模型 结果 类 似 。 因 此 ， 多 次 训练 可 以 有 效 找到 可 能 最 优 的 模型 。 


最 后 ， 我 们 在 用 户 相 关 因 素 的 特征 向 量 上 训练 K- 均 值 模型 : 


val userClusterModel] = KMeans.train(userVectors, numClusters, 


numIterations, numRuns) 


7.4 使 用 聚 类 模型 进行 预测 


个 单独 的 样本 进行 预测 : 


val moviel = movieVectors. 


val movieCluster = movieC 
println (movieCluster) 


使 用 训练 的 K- 均 值 模型 进行 预测 和 其 他 模型 (分 类 和 回归 ) 在 方法 上 类 似 。 以 下 代码 将 对 一 


first 
lusterModel .predict (moviel) 


也 可 以 通过 传人 一 个 RDD [Vector] 数 组 对 多 个 输入 样本 进行 预测 : 


val predictions = movieCl 
println(predictions.takel( 


usterModel .predict (movieVectors) 
10) .mkString(",")) 


对 于 每 个 样本 的 类 别 分 配 如 下 : 


0,0,1,1,2,1,0,1,1,1 
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此 你 自己 训练 的 结果 可 能 也 和 上 面 的 不 一 样 。 需 要 说 明 的 是 ， 类 秘 的 ID 没 有 内 


RR 注意 ， 因 为 随机 初始 化 , 任意 两 次 训练 的 模型 预测 的 类 别 可 能 都 不 一 样 ， 因 
只 在 含义 ， 都 是 从 0 开始 任意 生成 的 。 


用 MovieLens 数 据 集 解释 类 别 预测 


前 面 我 们 已 经 介绍 了 如 何 对 一 系列 输入 数据 进行 预测 ， 但 是 如 何 对 预测 的 结果 进行 评 佑 
呢 ? 接 下 将 讨论 性 能 评测 指标 ， 但 是 先 让 我 们 来 看 看 如 何 通过 人 工 观察 来 解释 K- 均 值 模型 做 的 


类 别 分 配 。 


尽管 无 监督 方法 具有 不 用 提供 带 标注 的 训练 数据 的 优势 , 但 它 的 不 足 是 需要 人 工 来 解释 。 为 
了 进一步 检验 聚 类 的 结果 ， 通 常 还 需要 为 每 个 类 簇 标注 一 些 标签 或 者 类 别 来 帮助 解释 。 


比如 , 为 了 检验 电影 聚 类 的 结果 ,我 们 尝试 观察 是 否 每 个 类 艇 具有 可 以 解释 的 含义 ， 比 如 题 
材 或 者 主题 。 具体 方法 很 多 , 这 里 重点 解释 每 个 类 簇 中 靠近 类 中 心 的 一 些 电 影 。 我 们 认为 选择 的 
这 些 电 影 对 所 分 配 的 类 簇 争议 最 小 ， 并 且 最 能 代表 所 述 类 簇 中 的 其 他 电影 。 通 过 检查 上 述 电 影 ， 
我 们 可 以 获取 每 个 类 簇 中 电影 的 共有 属性 。 


解释 电影 类 簇 


首先 ， 因 为 K- 均 值 最 小 化 的 目标 函数 是 样本 到 其 类 中 心 的 欧 拉 距 离 之 和 ,我 们 便 可 以 将 “最 
靠近 类 中 心 ”定义 为 最 小 的 欧 拉 距离 。 下 面 让 我 们 定义 这 个 度量 函数 , 注意 引入 Breeze 库 ( MLlib 
的 一 个 依赖 库 ) 用 于 线性 代数 和 向 量 运算 : 

import breeze.linalg._ 

import breeze.numerics.pow 


def computeDistance(vl: DenseVector[Double], v2: DenseVector [Double]) 
= pow(vl1 - v2, 2) .SU 


>» 上 面 代码 中 的 pow 函 数 是 Breeze 的 一 个 全 局 函数 ， 和 scala.math 的 pow 类 
SN 似 ， 区 别 在 于 前 者 可 以 对 向 量 按 维 进行 处 理 。 


下 面 我 们 利用 上 面 的 函数 对 每 个 电影 计算 其 特征 向 量 与 所 属 类 簇 中 心 向 量 的 距离 。 为 了 让 结 
有 果 具 有 可 读 性 ， 输 出 结果 中 添加 了 电影 的 标题 和 题材 数据 : 


val titlesWwithFactors = titlesAndGenres.join (movieFactors) 
val moviesAssigned = titlesWithFactors.map { case (id, ((title, 
genres), vector)) => 

val pred = movieClusterModel .predict (vector) 

val clusterCentre = movieClusterModel.clusterCenters (pred) 

val dist = computeDistance (DenseVector(clusterCentre.toArray), 
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DenseVector (vector.toArray)) 
(id, title, genres.mkString(" "), pred, dist) 
} 
val clusterAssignments = moviesAssigned.groupBy { case (id, title, 
genres, cluster, dist) => cluster }.collectAsMap 


运行 完 代 码 之 后 , 我 们 得 到 一 个 RDD, 其 中 每 个 元 素 是 关于 某 个 类 簇 的 键 值 对 ， 鲁 


是 类 艇 的 


标识 ， 值 是 若干 电影 和 相关 信息 组 成 的 集合 。 电 影 的 信息 为 : 电影 ID 、 标 题 、 题 材 、 类 别 索 引 ， 


以 及 电影 的 特征 向 量 和 类 中 心 的 距离 。 
最 后 ,我 们 枚 举 每 个 类 簇 并 输出 距离 类 中 心 最 近 的 前 20 部 电影 : 


for ( (k, Vv) <- clusterAssignments.toSeq.sortBy(_._1)) { 
println(s"Cluster S$k:") 
val m = Vv.toSeq.sortBy(_._5) 
println(m.take(20) .map { case (_, title, genres, _, d) => 
(title, genres, d) }.mkString("\n")) 


} 


图 7-6 是 输出 样 例 。 因 为 推荐 和 聚 类 模型 随机 初始 化 的 原因 ， 你 本 地 的 输出 可 能 略 有 不 同 : 


Cluster 0: 

(Last Time I Saw Paris, The (1954) ,Drama,6.27399666869786695) 

(Quiz Show (1994),Drama,0.4747831636277422) 

(Vertigo (1958) ,Mystery Thriller,0.48534288687692343) 

(Spellbound (1945),Mystery Romance Thriller,0,4926221112685535) 

(Casablanca (1942),Drama Romance War,0,49940194962368567) 

(African Queen, The (1951),Action Adventure Romance War,0.5187502052689528) 
(Amadeus (1984) ,Drama Mystery,0.5272552888790345) 

(Farewell to Arms，A (1932) ,Romance War,0.5363608755281867) 

(Cat on a Hot Tin Roof (1958),Drama,9.5497562196607695) 

(Third Man，The (1949) ,Mystery Thriller,0.5497731851647746) 

(Dial M for Murder (1954),Mystery Thriller,0.5622477772149612) 

(North by Northwest (1959),Comedy Thriller,0.5702331060033082) 

(29,000 Leagues Under the Sea (1954),Adventure Children's Fantasy Sci-Fi,0.5881687768024192) 
(Right Stuff, The (1983),Drama,0.6002418388739418) 

(Rear Window (1954),Mystery Thriller,0.6232262641317354) 

(Manchurian Candidate, The (1962),Film-Noir Thriller,0.6233301146337812) 
(Substance of Fire, The (1996),Drama,0.6252591346497877) 

(M*A*S*H (1970) ,Comedy War,0.63105245443614) 

(Butch Cassidy and the Sundance Kid (1969),Action Comedy Western,9.6337504848523161) 
(Blue Angel, The (Blaue Engel, Der) (1930) ,Drama,9.6342821363539322) 


图 7-6 “第 一 个 类 能 


从 图 中 可 以 看 出 ， 第 一 个 标签 为 0 的 类 艇 包含 了 很 多 20 世 纪 40 年 代 、50 年 代 和 60 年 代 的 老 电 


影 ， 以 及 一 些 近 代 的 戏剧 。 


第 二 个 类 簇 ( 图 7-7 ) 主要 是 一 些 恐 怖 电影 ， 同 时 剩 下 一 些 不 太 清楚 的 电影 ， 但 是 和 第 一 类 


一 样 也 有 一 些 戏剧 。 
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Cluster 1: 

(Amityville 1992: It's About Time (1992),Horror,0.1478043405622148) 
(Amityville: A New Generation (1993) ,Horror,8.1478043405622148) 

(Gordy (1995),Comedy,0.15051585838791465) 

(Machine, The (1994) ,Comedy Horror,0.176865932564681) 

(Amityville: Dollhouse (1996),Horror,9.17898379655862778) 

(Venice/Venice (1992),Drama,0.19738131555788463) 

(Somebody to Love (1994),Drama,0,2278813718368857) 

(Boys in Venice (1996),Drama,0.2278813718368857) 

(Falling in Love Again (1980),Comedy,9.2340143978726976) 

(3 Ninjas: High Noon At Mega Mountain (1998),Action Chitdren's,8.23903016597829816) 
(Babyfever (1994) ,Comedy Drama,8,24176557927323153) 

(Beyond Bedlam (1993),Drama Horror,8.24894805898011092) 

(Getting Away With Murder (1996),Comedy,9,2530960279675358) 

(Police Story 4: Project S (Chao ji ji hua) (1993),Action,9.25942992404443574) 
(Mighty, The (1998),Drama,9,27817019934466347) 

(Johnny 199 Pesos (1993),Action Drama,9.2870737627453892) 

(King of New York (1990),Action Crime,0.28853211361643927) 

(Further Gesture, A (1996),Drama,9.29378208871990685) 

(Shadow of Angels (Schatten der Engel) (1976),Drama,0.29529253258337934) 
(Homage (1995),Drama,9.29529253258337934) 


图 7-7 第 二 个 类 艇 


第 三 个 类 簇 ( 图 7-8 ) 分 类 不 是 很 清晰 ， 不 过 有 相当 一 部 分 是 喜剧 和 戏剧 电影 。 


Cluster 2: 

(House Party 3 (1994) ,Comedy,9,5792798461193011) 

(Cops and Robbersons (1994),Comedy,9.6121886776465748) 

(Pagemaster, The (1994),Action Adventure Animation Children's Fantasy,0.6126925309798513) 
(Fausto (1993),Comedy,0.6220018486977679) 

(Stag (1997),Action Thriller,0.6694984978987776) 

(Il\ Gotten Gains (1997),Drama,0.7021111594974133) 

(ALL Things Fair (1996),Drama,0.7365539555740591) 

(Day the Sun Turned Cold, The (Tianguo niezi) (1994) ,Drama,9.7447955673545115) 
(Chasers (1994),Comedy,0.7459052286323937) 

(Pyromaniac's Love Story, A (1995),Comedy Romance,0.7746300046654674) 
(Robocop 3 (1993),Sci-Fi Thriller,0.8075493355683138) 

(American Strays (1996),Action,0.8375011873201667) 

(Scout, The (1994) ,Drama,9.8455857296456323) 

(Metro (1997),Action,0.8488282233075414) 

(Sunchaser, The (1996),Drama,0.8855757549882701) 

(Across the Sea of Time (1995),Documentary,9,.9132140236347115) 

(Big Bully (1996),Comedy Drama,0.9134404160863872) 

(Wife, The (1995),Comedy Drama,0.9136581322158961) 

(Big Squeeze, The (1996),Comedy Drama,9.9191497196405036) 

(Shooter, The (1995),Action,9,9399878751600442) 


图 7-8 ”第 三 个 类 艇 
第 四 个 类 艇 (图 7-9 ) 和 戏剧 相关 性 比较 明显 ， 尤 其 还 包含 了 一 些 外 语 片 。 


Cluster 3: 

(King of the Hill (1993),Drama,0,27977910057590455) 

(Love and Other Catastrophes (1996),Romance,0.5616301951885126) 
(ALL Over Me (1997),Drama,0.5827486944870316) 

{Scream of Stone (Schrei aus Stein) (1991),Drama,0.5990653123876859) 
(Witness (1985),Drama Romance Thritter,9.6251178451970778) 

(I Can't Sleep (J'ai pas sommeil) (1994),Drama Thriller,9.6810378136145686) 
(Ed's Next Move (1996),Comedy,0.6821637177989938) 

(Suture (1993),Film-Noir Thriller,0.7247521033315935) 

(Sex, Lies, and Videotape (1989),Drama,9.7431922597566741) 

(Double Happiness (1994),Drama,0.770636268189787) 

(Wild Bill (1995),Western,9,7860403052412567) 

(Smoke (1995),Drama,9.7929521364994968) 

{Lover's Knot (1996),Comedy,8.7952419475534458) 

(Howling, The (1981),Comedy Horror,0.7958806811974748) 

(Price Above Rubies, A (1998) ,Drama,9,.797523480324549) 

(Wooden Man's Bride，The (Wu Kui) (1994),Drama,9,8035270945874613) 
(Nelly & Monsieur Arnaud (1995),Drama,0.8050334619693677) 

(Gate of Heavenly Peace, The (1995) ,Documentary,8.807333841007159) 
(Substance of Fire, The (1996),Drama,0.8143443692443669) 
(Grifters, The (1990),Crime Drama Film-Noir,0.8234461534563621) 


图 7-9 ”第 四 个 类 艇 
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最 后 一 个 类 簇 ( 图 7-10 ) 主要 是 动作 片 、 惊 悚 片 和 言情 片 , 并 且 包 含 了 一 些 相 对 流行 的 电影 。 


Cluster 4: 

(Outbreak (1995) ,Action Drama Thriller,0.4526691989349761) 
(River Wild, The (1994) ,Action Thriller,0.460177631328466086) 
(Moonlight and Valentino (1995),Drama Romance,9.472253677017327) 
(Blue Chips (1994),Drama,0.5103978205046279) 

(Outlaw, The (1943) ,Western,9,5346838076035247) 

(Air Up There, The (1994),Comedy,0.5721399113559971) 

(Touch (1997),Romance,0.58737089976348385) 

(Private Benjamin (1988),Comedy,0.5915397936718273) 

(Angela (1995) ,Drama,0.6075617445146397) 

(Sword in the Stone, The (1963),Animation Children's,0.6165719141792315) 
(Mr, Wonderful (1993),Comedy Romance,8.6181379459010301) 
(Maverick (1994) ,Action Comedy Western,0.6316402376687157) 
(Cool Runnings (1993),Comedy,0.64626110916860288) 

(Courage Under Fire (1996),Drama War,8.6693376056624485) 

(I.0. (1994) ,Comedy Romance,0.66691874141152) 

(Ransom (1996),Drama Thriller,8.6755383826704695) 

(City of Angels (1998),Romance,9.6756718112091122) 

(Firm, The (1993),Drama Thriller,0.6769576000019328) 

(Santa Clause, The (1994),Children's Comedy,0.6795328449586886) 
(Cliffhanger (1993),Action Adventure Crime,0.703261186148323) 


图 7-10 ”最 后 一 个 类 艇 


正如 你 看 到 的 , 我 们 并 不 能 明显 看 出 每 个 类 簇 所 表示 的 内 容 。 但 是 , 也 有 证 据 表明 聚 类 过 程 
会 提取 电影 之 间 的 属性 或 者 相似 之 处 , 这 不 是 单纯 基于 电影 名 称 和 题材 容易 看 出 来 的 ( 比如 外 语 
片 的 类 徐 和 传统 电影 的 类 簇 ， 等 等 )。 如 果 我 们 有 更 多 元 数据 ， 比 如 导演 、 演 员 等 , 便 有 可 能 从 
每 个 类 簇 中 找到 更 多 特征 定义 的 细节 。 


对 用 户 特征 向 量 的 聚 类 就 交 给 读者 作为 练习 ,具体 使 用 与 前 面 类 似 的 方法 。 
RS 我 们 已 经 生成 了 输入 向 量 放 在 了 userVectors 中 ,因此 你 只 需要 在 上 面 训 练 K- 
QQ 均值 模型 即 可 。 之后， 为 了 评估 聚 类 效果 ， 需 要 计算 每 个 离 中 心 最 近 的 用 户 ， 
然后 根据 他 们 对 电影 的 打分 或 者 其 他 可 用 的 用 户 元 数据 ， 发 现 这 些 用 户 的 共同 

之 处 。 


7.5 评估 聚 类 模型 的 性 能 

与 回归 、 分 类 和 推荐 引擎 等 模型 类 似 , 聚 类 模型 也 有 很 多 评价 方法 用 于 分 析 模型 性 能 ,以 及 
评估 模型 样本 的 拟 合 度 。 聚 类 的 评估 通常 分 为 两 部 分 : 内 部 评估 和 外 部 评估 。 内 部 评估 表示 评估 
过 程 使 用 训练 模型 时 使 用 的 训练 数据 ， 外 部 评估 则 使 用 训练 数据 之 外 的 数据 。 


7.5.1 内 部 评价 指标 


通用 的 内 部 评价 指标 包括 WCSS ( 我 们 之 前 提 过 的 KK 元 件 的 目标 函数 )、 Davies-Bouldin 指 数 、 
Dunn 指 数 和 轮廓 系数 (silhouette coefficient )。 所 有 这 些 度量 指标 都 是 使 类 艇 内 部 的 样本 距离 尽 可 
能 接近 ， 不 同类 艇 的 样本 相对 较 远 。 
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更 多 细节 请 阅读 维基 百科 : http://en.wikipedia.org/wiki/Cluster_ analysis#Internal 
evaluation 。 
7.5.2 ”外 部 评价 指标 


因为 聚 类 被 认为 是 无 监  ， 如 果 有 一 些 带 标注 的 数据 , 便 可 以 用 这 些 标签 来 评估 只 类 模 
型 。 可 以 使 用 眼 类 模型 预测 类 簇 ( 类 标签 )， 使 用 分 类 模型 中 类 似 的 方法 评估 预测 值 和 真实 标签 
的 误差 ( 即 真 假 阳 性 率 和 丰 假 阴性 束 )。 


具体 方法 包括 Rand measure 、F-measure、 雅 卡尔 系数 ( Jaccard index ) 等 。 


analysis#External evaluation 。 


| 过 和 更 多 关于 聚 类 外 部 评估 的 内 容 ， 请 参考 http://en.wikipedia.org/wiki/Cluster_ 


7.5.3 ”在 MovieLens 数 据 集 计算 性 能 


MLlib 提 供 的 函数 computecost 可 以 方便 地 计算 出 给 定 输入 数据 RDD [Vector] 的 WCSS。 
下 面 我 们 使 用 这 个 方法 计算 电影 和 用 户 训练 数据 的 性 能 


val movieCost = movieClusterModel.computeCost (movieVectors) 
val userCost = userClusterModel.computeCost (userVectors) 


println("WCSS for movies: " + movieCost) 
println("WCSS for users: " + userCost) 
人 

输出 结果 如 下 : 


WCSS for movies: 2586.0777166339426 
WCSS for users: 1403.4137493396831 


7.6 聚 类 模型 参数 调 优 
不 同 于 以 往 的 模型 ，K- 均 值 模 型 只 有 一 个 可 以 调 的 参数 ， 就 是 Kx， 即 类 中 心 数目 。 


通过 交叉 验证 选择 K 


类 似 分 类 和 回归 模型 , 我 们 可 以 应 用 交叉 验证 来 选择 模型 最 优 的 类 中 心 数目 。 这 和 监督 学 习 
的 过 程 一 样 。 需 要 将 数据 集 分 割 为 训练 集 和 测试 集 ， 然后 在 训练 集 上 训练 模型 ,在 测试 集 上 评估 
感 兴趣 的 指标 的 性 能 。 如 下 代码 用 60/40 划 分 得 到 训练 集 和 测试 集 ， 并 使 用 MLlib 内 置 的 WCSS 类 
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方法 评 佑 聚 类 模型 的 性 能 : 


val trainTestSplitMovies = movieVectors.randomSplit (Array (0.6, 0.4), 123) 
val trainMovies = trainTestSplitMovies(0) 

val testMovies = trainTestSplitMovies(1) 

val costsMovies = Seq(2, 3, 4, 5, 10, 20).map { k => (k, KMeans. 
train(trainMovies, numIterations, Kk, numRuns) .computeCost (testMovies)) 

} 

println("Movie clustering cross-validation:") 

CostsMovies.foreach { case (k, cost) => println(f"WCSS for K=SK id 

SG 本 本 


结果 如 下 : 


Movie clustering cross-validation 
WCSS for K=2 id 942.06 

WCSS for K=3 id 942.67 

WCSS for K=4 id 950.35 

WCSS for K=5 id 948.20 

WCSS for K=10 id 943.26 

WCSS for K=20 id 947.10 


从 结果 可 以 看 出 ， 随 着 类 中 心 数 目 增 加 ，WCSS 值 会 出 现下 降 ， 然 后 又 开始 增 大 。 男 外 一 个 


现象 ，K- 均 值 在 交叉 验证 的 情况 ，WCSS 随 着 K 的 增 大 持续 减 小 ， 但 是 达到 某 个 值 后 ， 下 降 的 速 


前 面 
得 到 


然 会 变 得 很 平缓 。 这 时 的 K 通 常 为 最 优 的 K 值 ( 这 称 为 拐点 )。 


根据 预测 结果 ， 我 们 选择 最 优 的 K=10。 需 要 说 明 是 ,模型 计算 的 类 艇 需要 人 工 解 释 ( 比如 
提 到 的 电影 或 者 顾客 聚 类 的 例子 )， 并 且 会 影响 K 的 选择 。 尽 管 较 大 的 K 值 从 数学 的 角度 可 以 
更 优 的 解 ， 但 是 类 簇 太 多 就 会 变 得 难以 理解 和 解释 。 


为 了 实验 的 完整 性 ， 我 们 还 计算 了 用 户 聚 类 在 交叉 验证 下 的 性 能 : 


val trainTestSplitUsers = userVectors.randomSplit (Array (0.6, 0.4), 123) 
val trainUsers = trainTestSplitUsers(0) 

val testUsers = trainTestSplitUsers(1) 

val OStSeUSers srSeq(2, 3 4, Ss 10, 20}) maD { kK sax,.(k, 

KMeans.train(trainUsers, numIterations, k, 

numRuns) .computeCost (testUsers)) } 

println("User clustering cross-validation:") 

costsUsers.foreach { case (k, cost) => println(f"WCSS for K=Sk id Scostg2 .2f") } 


可 以 看 到 如 下 类 似 电 影 聚 类 的 结果 : 


User clustering cross-validation: 
WCSS for K=2 id 544.02 

WCSS for K=3 id 542.18 

WCSS for K=4 id 542.38 

WCSS for K=5 id 542.33 

WCSS for K=10 id 539.68 

WCSS for K=20 id 541.21 
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> 需要 说 明 的 是 ， 由 于 聚 类 模型 随机 初始 化 的 原因 ， 你 得 到 的 结果 可 能 咯 有 
i 
7.7 小结 


本 章 中 ， 我 们 研究 了 一 种 新 的 模型 ， 它 可 以 在 无 标注 数据 中 进行 学 习 ， 即 无 监督 学 习 。 我 
们 学 习 了 如 何 处 理 需要 的 输入 数据 、 特 征 提 取 ， 以 及 如 何 将 一 个 模型 (我们 用 的 是 推荐 模型 ) 的 
输出 作为 男 外 一 个 模型 ( K- 均 值 聚 类 模型 ) 的 输入 。 最 后 ,我 们 评估 至 类 模型 的 性 能 时 ,不 仅 进 
行 了 类 艇 人工 解释 ， 也 使 用 具体 的 数学 方法 进行 性 能 度量 。 


下 一 章 , 我 们 将 讨论 其 他 类 型 的 无 监督 学 习 , 在 数据 中 选择 保留 最 重要 的 特征 或 者 应 用 其 他 
降 维 模型 。 
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第 8 章 


Spark 应 用 于 数据 降 维 


本 章 我 们 将 继续 学 习 无 监督 学 习 模 型 中 降低 数据 维度 的 方法 。 


不 同 于 我 们 之 前 学 习 的 回归 、 分 类 和 聚 类 ， 降 维 方法 并 不 是 用 来 做 模型 预测 的 。 降 维 方法 从 
一 个 D 维 的 数据 输入 提取 出 ji 维 表示 ，j 一 般 远 远 小 于 D。 因 此 ， 降 维 方法 本 身 是 一 种 预 处理 方 法 ， 
或 者 说 是 一 种 特征 转换 的 方法 ， 而 不 是 模型 预测 的 方法 。 


降 维 方法 中 尤为 重要 的 是 , 被 抽取 出 的 维度 表示 应 该 仍 能 捕捉 大 部 分 的 原始 数据 的 变化 和 结 
构 。 这 源 于 一 个 基本 想法 : 大 部 分 数据 源 包含 某 种 内 部 结构 ， 这 种 结构 一 般 来 说 是 未 知 的 〈 常 称 
为 隐 含 特征 或 潜在 特征 )， 但 如 果 能 发 现 结构 中 的 一 些 特征 ， 我 们 的 模型 就 可 以 学 习 这 种 结构 并 
从 中 预测 ， 而 不 用 从 大 量 无 关 的 充满 噪音 特征 的 原始 数据 中 去 学 习 预 测 。 简 言 之 ,缩减 维度 可 以 
排除 数据 中 的 噪音 并 保留 数据 原 有 的 隐 含 结构 。 


有 时 候 ， 原 始 数据 的 维度 远 高 于 我 们 拥有 的 数据 点 数目 。 不 降 维 ， 直接 使 用 分 类 、 回 归 等 广 
法 进行 机 器 学 习 建 模 将 非常 困难 。 因 为 需要 拟 合 的 参数 数目 远大 于 训练 样本 的 数目 ( 从 这 个 意义 
上 讲 ， 这 种 方法 和 我 们 在 分 类 和 回归 中 用 的 正则 化 方法 相似 )。 

以 下 是 一 些 使 用 降 维 技术 的 场景: 
D 探索 性 数据 分 析 ; 
D 提取 特征 去 训练 其 他 机 器 学 习 模型 
D 降低 大 型 模型 在 预测 阶段 的 存储 和 计算 需求 ( 例如， 一 个 执行 预测 的 生产 系统 ); 8 
D 把 大 量 文档 缩减 为 一 组 隐 合 话题 ， 
吕 当 数据 维度 很 高 时 ， 使 得 学 习 和 推广 模型 更 加 容易 ( 例如 ， 当 处 理 文本 、 声 音 、 图 像 、 

视频 等 非常 高 维 的 数据 时 )。 


本 章 中 ， 我 们 将 : 


口 介绍 在 MLlib 中 可 以 使 用 的 降 维 模型 ; 
口 对 脸 部 图 像 数 据 提取 合适 特征 进行 降 维 ; 
口 使 用 MLlib 训 练 降 维 模型 ; 
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口 可 视 化 模型 结果 并 评价 ; 
口 对 于 降 维 模型 进行 参数 选择 。 


8.1 降 维 方法 的 种 类 


MLlib 提 供 两 种 相似 的 降低 维度 的 模型 : PCA ( Principal Components Analysis ， 主 成 分 分 析 
法 ) 和 SVD ( Singular Value Decomposition ， 奇 异 值 分 解法 )。 


8.1.1 主 成 分 分 析 


PCA 处 理 一 个 数据 和 矩阵， 抽取 和 抢 阵 中 K 个 主 向 量 ， 主 向 量 彼此 不 相关 。 计 算 结 果 中 ， 第 一 个 
主 向 量 表示 输入 数据 的 最 大 变化 方向 。 之 后 的 每 个 主 向 量 依次 代表 不 考虑 之 前 计算 过 的 所 有 方向 
时 最 大 的 变化 方向 。 

因此 ， 返 回 的 k 个 主 成 分 代表 了 输入 数据 可 能 的 最 大 变化 。 事 实 上 ， 每 一 个 主 成 分 向 量 上 有 
着 和 原始 数据 矩阵 相同 的 特征 维度 。 因 此 需要 使 用 映射 来 做 一 次 降 维 , 原来 的 数据 被 投影 到 主 向 
量 表示 的 / 维 空间 。 


8.1.2 奇异 值 分 解 
SVD 试 图 将 一 个 m x m 的 矩阵 分 解 为 三 个 主 成 分 矩阵 : 


口 m x m 维 矩阵 U 
口 m xm 维 对 角 阵 S$，S 中 的 元 素 是 奇异 值 
Dmwx m 维 矩阵 天 


X=UxSxV 


观察 前 面 的 公式 ,我 们 一 点 也 没有 降低 问题 的 维度 ， 通 过 操作 U、S、 和 VV， 可 以 重新 构建 原 
始 的 和 矩阵。 事实 上 , 一 般 计算 截断 的 SVD。 只 保留 前 £ 个 奇异 值 ， 它 们 能 代表 数据 的 最 主要 变化 ， 
剩余 的 奇异 值 被 丢弃 。 基 于 成 分 矩阵 重建 X 的 公式 大 概 是 : 


X~ UxXS, XV 


一 个 截断 SVD 的 例子 如 图 8-1 所 示 : 
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n 天 k n 
天 V k 
m 区 mv 
图 8-1 截断 SVD 
保留 前 x 个 奇异 值 和 在 PCA 中 保留 前 个 主 成 分 类 似 ，SVD 和 PCA 是 有 直接 联系 的 ,一会儿 我 


们 就 会 在 本 章 中 看 到 这 点 。 


PCA 和 SVD 的 详细 数学 推导 不 是 本 书 的 内 容 。 
可 以 在 下 面 的 Spark 文 档 中 找到 降 维 方法 的 综述 : http://spark.apache.org/docs/ 
KW latest/mllib-dimensionality-reduction.html。 
~ 下 面 的 链接 分 别 包 含 了 PCA 和 SVD 更 加 详细 的 数学 相关 知识 : http://en. 
wikipedia.org/wiki/Principal component analysis 和 http://en.wikipedia.org/wiki/ Sin 


gular value decomposition 。 


8.1.3 ”和 答 阵 分解 的 关系 


PCA 和 SVD 都 是 矩阵 分 解 技术 ， 某 种 意义 上 来 说 ,它们 都 把 原来 的 矩阵 分 解 成 一 些 维度 (或 
秩 ) 较 低 的 矩阵 。 很 多 降 维 技术 都 是 基于 和 矩阵 分 解 的 。 

你 也 许 记得 矩阵 分 解 的 另 一 个 例子 ,就 是 协同 过 滤 。 在 第 4 章 的 构建 推荐 引擎 中 我 们 看 到 过 。 
在 协同 过 滤 的 例子 中 , 和 矩阵 分 解 负责 把 评分 矩阵 分 解 成 两 部 分 : 用 户 和 矩阵 和 商品 矩阵 。 两 者 都 具 
有 比 原始 数据 更 低 的 维度 ， 所 以 这 些 方法 也 是 减少 维度 的 模型 。 


2 的 方法 获得 了 Netifx 奖 ， 参 见 : http://sifter.org/~simon/journal/20061211.html。 


8.1.4 ” 聚 类 作为 降 维 的 方法 
上 一 章 我 们 讲 的 聚 类 方法 也 可 以 用 来 做 降 维 。 可 以 通过 下 面 的 方式 做 到 : 
口 假设 我 们 对 高 维 的 特征 向 量 使 用 把 means 聚 类 成 4 个 中 心 ， 结 果 就 是 k 个 聚 类 中 心 组 成 的 


公 ， 
口 我 们 可 以 根据 原始 数据 与 这 k 个 中 心 的 远近 ( 也 就 是 计算 出 每 个 点 到 每 个 中 心 的 距离 ) 表 
示 这 些 数据 ， 结 果 就 是 每 个 点 的 一 组 上 5 距离; 
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口 这 K 个 距离 可 以 形成 一 个 新 的 j 维 向量, 我 们 就 用 比 原来 数据 维度 较 低 的 新 向 量 表示 了 原来 
的 数据 。 


通过 使 用 不 同 的 距离 矩阵 ， 我 们 可 以 实现 数据 降 维 和 非 线性 变化 ， 或 者 可 以 让 我 们 通过 高 
效 的 线性 模型 计算 学 习 更 复杂 的 模型 。 例 如 使 用 高 斯 和 指数 距离 函数 可 以 实现 非常 复杂 的 非 线 
性 转换 。 


8.2 ”从 数据 中 抽取 合适 的 特征 
在 我 们 到 目前 为 止 所 学 的 所 有 机 器 学 习 模型 中 ， 降 维 模型 还 可 以 产生 数据 的 特征 向 量 表示 。 


本 章 我 们 将 利用 户外 脸 部 标注 集 ( LFW ，Labeled Faces in the Wild ) 深入 到 图 像 处 理 的 世界 。 
这 个 数据 集 包含 13 000 多 张 主要 从 互联 网 上 获得 的 公众 人 物 的 面部 图 片 。 这 些 图 片 用 人 名 进行 了 
标注 。 


从 LFW 数 据 集中 提取 特征 


为 了 避免 下 载 处 理 非常 大 的 数据 ， 我 们 只 处 理 图 片 集 的 一 个 子 集 ， 选 择 以 A 字母 开头 的 人 的 
面部 图 片 。 通 过 下 面 的 链接 可 以 下 载 到 这 个 数据 集 : http:/vis-www.cs.umass.edu/lfw/lfw-a.tgz。 


想 获得 更 多 的 细节 和 其 他 字母 对 应 的 数据 集 ， 访 问 网 址 : http://Vis-www. 
cs.umass.edu/lfw/。 
原始 的 研究 报告 : Gary B. Huang, Manu Ramesh, Tamara Berg, and Erik 
Learned-Miller. Labeled Faces in the Wild: A Database for Studying Face Recognition 
in Unconstrained Environments. University of Massachusetts, Amherst, Technical 
Report 07-49, October, 2007。 
可 以 从 下 面 的 网 址 下 载 这 份 报告 : http://Vis-www.cs.umass.edu/lfw/lfw.pdf。 


通过 下 面 的 命令 解压 数据 : 


>tar xfvz lfw-a.tgz 

这 会 创建 一 个 叫 lfw 的 文件 来， 包含 大 量子 文件 夹 ， 每 个 子 文件 夹 对 应 一 个 人 。 

1. 载 入 脸 部 数据 

启动 Spark Scala 控 制 台 ， 并 保证 分 配 足 够 的 内 存 ， 因 为 降 维 方法 是 非常 消耗 计算 资源 的 。 


>./SPARK HOME/bin/spark-shell --driver-memory 2g 
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现在 我 们 解压 数据 ， 但 面临 一 个 小 挑战 : 虽然 Spark 提 供 了 读 取 文 本 文件 和 Hadoop 输 入 源 的 
方法 ,但 是 并 没有 提供 读 取 图 片 文件 的 内 置 功能 。 


Spark 提 供 了 一 个 方法 叫 作 wholeTextFiles， 允许 我 们 一 次 操作 整个 文件 ， 不 同 于 我 们 一 
直 在 使 用 的 在 一 个 文件 或 多 个 文件 中 只 能 逐 行 处 理 的 TextFile 方 法 。 

我 们 将 使 用 wholeTextFile 方 法 访问 每 个 文件 存储 的 位 置 。 通 过 这 些 文件 路 径 ， 可 以 用 自 
定义 代码 加 载 和 处 理 图 像 。 在 下 面 的 示例 代码 中 , 我 们 使 用 PATH 代表 解压 lfw 子 文件 夹 后 的 路 径 。 

使 用 通配符 的 路 径 标识 〈 下 面 的 代码 片段 中 的 * ) 来 告诉 Spark 在 lfw 文 件 夹 中 访问 每 个 文件 
夹 以 获取 文件 : 

val path = "/PATH/1fw/*" 

val rdd = sc.wholeTextFiles (path) 


val first = rdd.first 
println(first) 


为 Spark 首 先 为 了 获取 所 有 可 访问 的 文件 会 检索 这 个 目录 的 结构 ， 所 以 运行 第 一 个 命令 可 
能 会 花费 一 些 时 间 。 一 旦 完成 ， 应 该 可 以 看 到 类 似 如 下 的 输出 : 


first: (String, String) = (file:/PATH/lfw/Aaron Eckhart 


wholeTextFiles 将 返回 一 个 由 键 - 值 对 组 成 的 RDD, 键 是 文件 位 置 , 值 是 整个 文件 的 内 容 。 
对 于 我 们 来 说 ， 只 需要 文件 路 径 ， 因 为 我 们 不 能 直接 以 字符 串 形式 处 理 图 片 数 据 (注意 ,数据 被 
展示 为 “无 意义 的 二 进 制 形 式 ”)。 

我 们 从 RDD 抽 取 文 件 路 径 。 同 时 要 注意 ， 文件 路 径 格 式 以 “file:” 开 始 ， 这 个 前 级 是 Spark 
用 来 区 分 从 不 同 的 文件 系统 读 取 文 件 的 标识 ( 例如 ，file:// 是 本 地 文件 系统 ，hdfs:// 是 hdfs，s3n:// 
是 Amazon S3 文 件 系统 ， 等 等 )。 

我 们 的 例子 将 使 用 自 定 义 代 码 来 读 取 图 片 , 所 以 我 们 需要 文件 路 径 这 部 分 。 因 此 我 们 通过 下 
面 的 map 函 数 删除 前 面部 分 : 


val files = rdd.map { case (fileName, content) => 
fileName.repbplace("file:"，"") } 
println(files.first) 


这 将 显示 移 除 了 前 级 的 文件 路 径 : 
/PATH/1fw/Aaron_Eckhart/Aaron Eckhart_0001.jpg 

下 面 会 显示 我 们 将 有 多 少 个 文件 要 处 理 : 
println(files.count) 

这 个 命令 会 在 Spark 的 shell 里 产生 很 多 噪音 输出 ， 因 为 所 有 读 取 的 文件 路 径 都 会 被 输出 。 
被 忽略 ， 但 命令 执行 完 后 的 输出 看 起 来 像 下 面 这 样 : 


四 二 


尽管 应 该 
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: /PATH/lfw/Azra Akin/Azra Akin 0003.jpg:0+19927, 
/PATH/lfw/Azra_ Akin/Azra Akin 0004.jpg:0+16030 


14/09/18 20:36:25 INFO SparkContext: Job finished: count at 


<console\>:19, took 1.151955 s 
1055 


这 里 我 们 看 到 有 1055 个 文件 要 处 理 。 
2. 可 视 化 脸 部 数据 


尽管 Scala 和 Java 有 一 些 可 用 工具 来 展示 图 片 , 但 这 是 Python 和 matplotlib 更 擅长 的 。 我 们 将 使 
用 Scala 来 处 理 并 提取 图 像 数 据 ， 然 后 在 IPython 中 展示 实际 的 图 片 。 


可 以 打开 新 的 浏览 器 窗口 来 ， 独 立 运行 一 个 IPython NoteBook: 


>ipython notebook 


注意 ， 如 果 你 在 使 用 Python NoteBook， 首 先 应 该 执行 下 面 的 代码 片段 来 保 
一 证 图 片 可 以 被 每 个 notebook 单 元 格 ( 包含 s 字 符 ) 内 误 显 示 : 8%pylab inline。 


也 可 以 启动 没有 浏览 器 的 简单 IPython 终 端 ， 用 下 面 的 命令 开启 绘制 功能 


>ipython -pylab 


在 写本 书 的 时 候 , 降 维 技术 在 MLlib 中 只 支持 Scala 和 Java 语 言 , 所 以 我 们 继续 使 用 Scala Spark 
终端 来 运行 模型 。 因 此 ， 你 不 需要 在 控制 台中 运行 PySpark。 


本 章 我 们 以 Lythou a debython NoteBook 的 形式 提供 了 所 有 的 Python 代码 。 
a 关于 安装 IPython 的 教程 ， 请 参照 IPython 代 码 包 


使 用 matplotlib 的 jmread 和 imshow 方 法 ， 通 过 我 们 之 前 提取 的 路 径 ， 可 以 展示 出 图 片 : 


path = "/PATH/lfw/PATH/lfw/Aaron_FEckhart/Aaron_ FEckhart_0001.jpg" 
ae = imread (path) 
imshow (ae) 


你 应 该 看 到 图 片 被 展示 在 你 的 NoteBook 上 (或 者 , 如 果 你 使 用 标准 的 IPython 
KN 冬 端 ， 会 在 一 个 弹出 的 窗口 上 )， 注 意 我 们 这 里 没有 展示 图 片 。 


3. 提取 面部 图 片 作为 向 量 


图 片 处 理 的 整个 方法 已 经 不 在 本 书 的 讨论 范围 ， 但 我 们 需要 知道 一 些 基 本 知识 来 继续 
每 一 个 彩色 图 片 可 以 表示 成 一 个 三 维 的 像素 数组 或 矩阵 。 前 两 维 ， 即 x、y 坐 标 ， 7 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


8.2 ”从 数据 中 抽取 合适 的 特征 165 


位 置 ， 第 三 个 维度 表示 每 个 像素 的 红 、 蓝 、 绿 (RGB ) 三 元 色 的 值 。 

一 个 灰 度 图 片 每 个 像素 仅仅 需要 一 个 值 (不 需要 RGB 值 ) 来 表示 ,因此 可 以 简单 表示 为 二 维 
矩阵。 很 多 和 图 片 相关 的 图 像 处 理 和 机 器 学 习 任 务 经 常 只 处 理 灰 度 图 片 。 我 们 将 通过 先 把 彩色 图 
片 转换 为 灰 度 图 片 来 达到 这 个 目的 。 

在 机 器 学 习 任 务 中 , 还 有 一 种 常用 的 方式 是 把 图 片 表示 成 一 个 向 量 ， 而 不 是 和 矩阵。 我 们 通过 
连接 矩阵 的 每 一 行 〈 或 者 每 一 列 ) 来 形成 一 个 长 向 量 ( 称 为 重 塑 )。 这 样 每 一 个 灰 度 图 像 矩 阵 会 
被 转换 为 特征 向 量 ， 作 为 机 器 学 习 模 型 的 输入 。 

我 们 很 幸运 ，Java 集 成 的 AWT ( 抽象 窗口 工具 库 ) 包含 很 多 基本 的 图 像 处 理 函 数 。 我 们 将 使 
用 java.awt 定 义 一 些 功能 函数 来 处 理 图 片 。 


(1) 载 人 图 片 
第 一 个 函数 是 从 文件 中 读 取 图 片 : 


import java.awt.image.BufferedImage 
def loadImageFromFile(path: String): BufferedIimage = { 

import javax.imageio.ImageIO 

import java.io.File 

ImageIO.read (new File(path)) 
} 
Na 、 S J \y [5 ww 、 
这 将 返回 一 个 java .awt .image.BufferedImage 类 的 实例 , 存储 图 片 数据 并 提供 很 多 有 用 

的 方法 。 我 们 在 Spark shell 中 加 载 第 一 幅 图 片 来 测试 它 : 
val aePath = "/PATH/lfw/Aaron_ Eckhart/Aaron FEckhart_0001.jpg" 
val aeImage = loadIimageFromFile(aePath) 
-ALL 二 这 + 

你 将 会 看 到 前 端 显 示 的 图 片 细 市 : 
aeImage: java.awt.image.BufferedImage = BufferedImage@f41266e: type = 
5 ColorModel: #pixelBits = 24 numComponents = 3 color space = 
java.awt .color.ICC ColorSpace@7e420794 transparency = 1 has alpha = 
false isAlphaPre = false ByteInterleavedRaster: width = 250 height = 
250 #numDataElements 3 dataOff[0] = 2 


这 里 有 很 多 信息 。 对 我 们 来 说 特别 有 意义 的 是 图 片 的 宽 和 高 都 是 250 像 素 。 并 且 我 们 可 以 看 
到 ， 颜 色 组 件 (就 是 RGB 值 ) 数 为 3， 在 前 面 的 输出 中 加 粗 了 。 

(2) 转换 灰 度 图 片 并 改变 图 片 尺寸 

我 们 定义 了 下 面 的 函数 来 读 取 前 一 个 函数 加 载 的 图 片 , 把 图 片 从 彩色 变 为 灰 度 , 并 改变 图 片 
的 宽 和 高 。 

这 一 步 并 不 是 严格 必须 的 , 但 是 为 了 效率 在 很 多 场景 下 这 两 步 都 会 涉及 。 使 用 RGB 彩色 图 片 
而 不 是 灰 度 图 片 会 使 处 理 的 数据 量 增 加 三 倍 。 类 似 地 , 较 大 的 图 片 也 大 大 增加 了 处 理 和 存储 的 负 
担 。 我 们 原始 的 250 x 250 图 片 每 幅 包 含 187 500 个 使 用 三 原色 的 数据 点 。 对 于 1055 幅 图 片 而 言 ， 
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就 是 197 812 500 个 数据 点 。 即 使 以 整数 值 存储 ,每 一 个 值 占用 4 字 节 内 存 , 也 会 占用 800 MB 内 存 。 
你 会 看 到 ， 图 片 处 理 任 务 很 容易 成 为 大 量 消耗 内 存 的 任务 。 


如 果 转 换 成 灰 度 图 片 ， 并 改变 图 片 尺寸 ， 比 方 50 x 50 像 素 大 小 ,我 们 仅仅 需要 2500 个 数据 点 
存储 每 幅 图 片 。 对 于 1055 张 图 片 ， 大 概 等 同 于 10 MB 的 内 存 ， 更 适合 我 们 演示 的 需要 。 


| 另 一 个 改变 尺寸 的 原因 是 MLlib 的 PCA 模 型 在 少 于 10 000 列 的 又 高 又 疲 的 模 
型 上 表现 最 好 。 我 们 会 产生 2500 列 ( 每 个 像素 也 就 是 我 们 特征 向 量 的 一 个 元 素 )， 
所 以 较 好 地 符合 这 个 限制 。 


让 我 们 定义 自己 的 处 理 函 数 。 我 们 将 使 用 java.awt.image 包 一 步 做 完 灰 度 转换 和 尺寸 改变 : 


def processImage (image: BufferedImage, width: Int, height: Int): 
BufferedIimage = { 

val bwImage = new Bufferedimage 

(width, height, BufferedImage.TYPE_ BYTE_GRAY) 

val g = bwImage.getGraphics() 

g.drawImage (image, 0, 0, width, height, null) 

g.dispose() 

bwImage 


} 

函数 的 第 一 行 创建 了 一 个 指定 宽 、 高 和 灰 度 模型 的 新 图 片 。 第 三 行 从 原始 图 片 绘制 出 灰 度 图 
片 。drawImage 方 法 负责 颜色 转换 和 尺寸 变化 ! 最 后 我 们 返回 了 一 个 新 的 处 理 过 的 图 片 。 

测试 示例 图 片 的 输出 。 转 换 灰 度 图 片 并 改变 尺寸 到 100 x 100 像 素 : 

val grayImage = processImage (aeImage, 100, 100) 


控制 台中 应 该 出 现 以 下 输出 : 


grayImage: java.awt.image.BufferedImage = BufferedImage@21f8ea3b: 
type = 10 ColorModel: #pixelBits = 8 numComponents = 1 color space = 
java.awt .color.ICC ColorSpace@5cd9d8e9 transparency = 1 has alpha = 
false isAlphaPre = false ByteInterleavedRaster: width = 100 height = 
100 #numDataElements 1 dataOoff[0] = 0 


正如 输出 中 高 亮 的 部 分 所 示 ， 图 片 的 高 和 宽 确实 是 100， 颜 色 组 件数 也 变 成 了 1。 
然后 存储 处 理 过 的 图 片 文件 到 临时 路 径 ， 这 样 我 们 可 以 在 IPython 控 制 台 中 读 取 回 来 并 显示 。 


import javax.imageio.ImageIO 
import java.io.File 
ImageIO.write(grayImage, "jpg", new File("/tmp/aeGray.jpg")) 


你 应 该 看 到 控制 台 显 示 了 true， 说 明 我 们 成 功 把 灰 度 图 片 aeGrey . jpg 保存 到 了 /tmp 文 件 夹 。 
最 后 在 Python 中 使 用 matplotlib 读 取 并 显示 图 片 。 在 了 Python NoteBook 或 者 前 端 中 输入 下 面 的 
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代码 ( 这 些 操作 会 打开 新 的 终端 窗口 ): 


tmpPath = "/tmp/aeGray .jpg" 
aeGary = imread (tmpPath) 
imshow(aeGary, cmap=plt.cm.gray) 


这 样 就 会 显示 出 图 片 (再 次 注意 我 们 这 里 就 不 展示 图 片 了 )。 可 以 看 到 灰 度 图 片 和 原来 图 片 
比较 ， 质 量 稍 差 。 另 外 ， 你 会 发 现 坐 标的 尺度 也 是 不 同 的 ，250 x 250 的 原始 尺度 已 经 被 更 新 为 
100 x 100 的 新 尺寸 。 


(3) 提取 特征 向 量 


处 理 流程 的 最 后 一 步 是 提取 真实 的 特征 向 量 作 为 我 们 降 维 模型 的 输入 。 正如 之 前 提 到 的 , 纯 
灰 度 像素 数据 将 作为 特征 。 我 们 将 通过 打 平 二 维 的 像素 矩阵 来 构造 一 维 的 向 量 。 BufferedImage 
类 为 此 提供 了 一 个 工具 方法 ， 可 以 在 我 们 的 函数 中 使 用 : 


def getPixelsFromImage (image: BufferedqImage) : Array[Double] = { 
val width = image.getWidtn 
val height = image.getHeight 
val pixels = Array.ofDim[Double] (width * height) 
image.getData.getPixels(0, 0, width, height, pixels) 

} 


之 后 我 们 在 一 个 功能 函数 中 组 合 这 三 个 函数 ， 接 受 一 个 图 片 文件 位 置 和 需要 处 理 的 宽 和 高 ， 
返回 一 个 包含 像素 数据 的 Array [Doubel] 值 : 


def extractPixels (path: String, width: Int, height: Int): 
Array[lDouble] = { 
val raw = loadImageFromFile (path) 
Val processed = processImage (raw, width, height) 
getPixelsFromImage (processed) 


} 


把 这 个 函数 应 用 到 包含 图 片 路 径 的 RDD 的 每 一 个 元 素 上 将 产生 一 个 新 的 RDD， 新 的 RDD 包 
含 每 张 图 片 的 像素 数据 。 让 我 们 通过 下 面 的 代码 看 看 开始 的 几 个 元 素 : 


val pixels = files.map(f => extractPixels(f, 50, 50)) 
println(pixels.take(10) .map(_.take(10) .mkString 
1 Sh iy te a 


你 会 看 到 类 似 下 面 的 输出 : 


0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0, 
241.0,243.0,245.0,244.0,231.0,205.0,177.0,160.0,150.0,147.0, 
253.0,253.0,253.0,253.0,253.0,253.0,254.0,254.0,253.0,253.0, 
244.0,244.0,243.0,242.0,241.0,240.0,239.0,239.0,237.0,236.0, 
44.0,47.0,47.0,49.0,62.0,116.0,173.0,223.0,232.0,233.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0, 
26.0,26.0,27.0,26.0,24.0,24.0,25.0,26.0,27.0,27.0, 
240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


168 第 8 章 Spark 应 用 于 数据 降 维 


最 后 一 步 是 为 每 一 张 图 片 创建 MLlib 向 量 对 象 。 我 们 将 缓存 RDD 来 加 速 我 们 之 后 的 计算 : 


import org.apache.spark.mllib.linalg.Vectors 
val vectors = pixels.map(p => Vectors.dense(p)) 
vectors.setName ("image-vectors") 

vectors.cache 


» 我 们 使 用 setName 函 数 尽 早 赋 给 RDD 一 个 名 字 。 这 里 ， 我 们 起 名 image- 
QQ vectors。 这 会 使 之 后 在 Spark 的 Web 界 面 中 更 容易 识别 它 


4. 正则 化 


在 运行 降 维 模型 尤其 是 PCA 之 前 ， 通 常会 对 输入 数据 进行 标准 化 。 正 如 我 们 在 第 5 章 使 用 
Spark 创 建 分 类 模型 时 做 的 ,我 们 将 使 用 MLlib 的 特征 包 提 供 的 内 建 stanaardscaler 函 数 。 在 这 
个 例子 中 ， 我 们 将 只 从 数据 中 提取 平均 值 : 


import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 
import org.apache.spark.mllib.feature.StandardScaler 

val scaler = new StandardScaler 

(withMean = true, withstd = false).fit(vectors) 


调用 fit 函 数 会 导致 基于 RDDIVector] 的 计算 。 你 应 该 可 以 看 到 类 似 这 里 的 输出 : 


14/09/21 11:46:58 INFO SparkContext: Job finished: reduce at 
RDDFunctions.scala:111, took 0.495859 s 


Scaler: org.apache.spark.mllib.feature.StandardScalerModel = 
org.apache.spark.mllib.feature.StandardScalerModel@6bblalal 


注意 ,对 于 稠密 的 输入 数据 可 以 提取 平均 值 , 但 是 对 于 稀疏 数据 ,提取 平均 
a 值 将 会 使 之 变 稠密 。 对 于 很 高 维度 的 输入 ,这 将 很 可 能 耗 尽 可 用 内 存 资源 ， 所 以 
是 不 建议 使 用 的 。 


最 后 , 我 们 将 使 用 返回 的 scaler 来 转换 原始 的 图 像 向 量 , 让 所 有 向 量 减 去 当前 列 的 平均 值 : 


val scaledVectors = vectors.map(v => scaler.transform(v)) 


我 们 之 前 提 到 改变 尺寸 的 灰 度 图 像 将 会 占用 大 概 10 MB 的 内 存 。 事实 上 , 你 可 以 在 Spark 应 用 
监控 台 存 储 页 面 中 看 到 内 存 使 用 情况 : http://localhost:4040/storage/。 


因为 我 们 给 了 图 像 RDD 一 个 友好 的 名 字 image-vectors, 你 应 该 会 看 到 如 图 8-1 所 示 的 信息 
( 注意 我 们 正在 使 用 的 是 Vector [Double] ， 每 一 个 元 素 占 用 8 比特 数据 而 不 是 4 比特 ， 因 此 实际 
需要 20 MB 的 内 存 ): 
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@ee Spark shell - Storage + 
所 localhost-4040/storage/ Cc 区 图 ca Q) 人 外 有 会 | 三 
Spaik: tages Storage nvironment Executors Spark shell applicat 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Sizein Memory SizeinTachyon SizeonDisk 
Memory Deserialized 1x Replicated = 2 100% 202 MB 00B 0.0B 


图 8-2 ”内 存 中 图 像 向 量 的 大 小 


8.3 训练 降 维 模型 


MLlib 中 的 降 维 模型 需要 向 量 作为 输入 。 但 是 ， 并 不 像 聚 类 直接 处 理 RpD [Vector] ，PCA 和 
SVD 的 计算 是 通过 提供 基于 RowMatrix 的 方法 实现 的 (区别 主要 是 语法 的 不 同 ，RowMatrix 也 
仅仅 是 一 个 RDD [Vector] 的 简单 封装 )。 


在 LFW 数 据 集 上 运行 PCA 


因为 我 们 已 经 从 图 像 的 像素 数据 中 提取 出 了 向 量 , 现在 可 以 初始 化 一 个 新 的 RowMatrix, 并 
调用 computePrincipalcomponents 来 计算 我 们 的 分 布 式 矩阵 的 前 E 个 主 成 分 : 

import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllipb.linalg.distributed.RowMatrix 

val matrix = new RowMatrix(scaledVectors) 


val “KS "0 
val pc = matrix.computePrincipalComponents (K) 


运行 模型 的 时 候 ， 将 会 在 控制 台 看 到 大 量 的 输出 。 


如 果 看 到 这 样 的 警告 ; WARN LAPACK: Failed to load implementation from: 
com.github.fommil.netlib.NativeSystemLAPACK 或 者 WARN LAPACK: Failed to 
>» load implementation from: com.github.fommil.netlib. NativeRefLAPACK，, 你 可 以 放 
ea 心地 忽略 掉 。 
这 段 警告 是 说 MLlib 使 用 的 线性 代数 库 不 能 加 载 本 地 库 。 这 时 ， 基 于 Java 的 
备 选 库 会 被 使 用 ， 虽 然 会 慢 一 点 ， 但 对 我 们 的 例子 来 说 一 点 都 不 用 担心 。 


模型 训练 结束 后 ， 应 该 会 在 控制 台 看 到 类 似 下 面 的 结果 : 


pc: org.apache.spark.mllib.linalg.Matrix = 
-0.023183157256614906 -0.010622723054037303 ... (10 total) 
-0.023960537953442107 -0.011495966728461177 
-0.024397470862198022 -0.013512219690177352 
-0.02463158818330343 -0.014758658113862178 
-0.024941633606137027 -0.014878858729655142 
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-0.02525998879466241 -0.014602750644394844 
-0.025494722450369593 -0.014678013626511024 
-0.02604194423255582 -0.01439561589951032 

-0.025942214214865228 -0.013907665261197633 
-0.026151551334429365 -0.014707035797934148 
-0.026106572186134578 -0.016701471378568943 
-0.026242986173995755 -0.016254664123732318 
-0.02573628754284022 -0.017185663918352894 
-0.02545319635905169 -0.01653357295561698 

-0.025325893980995124 -0.0157082218373399... 


1. 可 视 化 特征 脸 
现在 我 们 已 经 训练 了 自己 的 PCA 模 型 ， 但 结果 如 何 ” 让 我 们 分 析 一 下 结果 抢 阵 的 不 同 维度 : 


Val rows = pc.numRows 
Val ‘Gols = PCmnuUncolLg 
println(rows, cols) 


正如 你 从 控制 台 输出 看 到 的 结果 ， 主 成 分 矩阵 有 2500 行 10 列 : 

(2500,10) 

因为 每 张 图 片 的 维度 是 50 x 50, 所 以 我 们 得 到 了 前 10 个 主 成 分 向 量 , 每 一 个 向 量 的 维度 都 和 
输入 图 片 的 维度 一 样 。 可 以 认为 这 些 主 成 分 是 一 组 包含 了 原始 数据 主要 变化 的 隐 层 ( 隐藏 ) 特 征 。 


、 在 面部 识别 和 图 像 处 理 时 ， 这 些 主 成 分 总 是 被 称 为 特征 脸 ， 这 是 因为 PCA 
和 原始 数据 的 协 方 差 矩 阵 的 特征 值 分 解 非常 相关 。 参 见 http:/en.wikipedia.org/ 
wiki/Eigenface 获 得 更 多 细节 。 


因为 每 一 个 主 成 分 都 和 原始 图 像 有 相同 维度 , 每 一 个 成 分 本 身 可 以 看 作 是 一 张 图 像 , 这 使 得 
我 们 下 面 要 做 的 可 视 化 特征 脸 成 为 可 能 。 


正如 之 前 本 书 中 经 常 做 的 ， 使 用 Breeze 线 性 函数 库 和 Python 的 numpy 及 matplotlib 的 函数 来 可 
视 化 特征 脸 。 


首先 ， 我们 使 用 变量 ( 一 个 MLlib 和 矩阵 ) 创建 一 个 Breeze DenseMatrix: 


import breeze.linalg.DenseMatrix 


val pcBreeze = new DenseMatrix(rows, cols, pc.toArray) 


Breeze 的 1inalg 包 中 提供 了 实用 的 函数 把 矩阵 写 到 CSV 文 件 中 。 我 们 将 使 用 它 把 主 成 分 保存 
为 临时 CSV 文 件 : 


import breeze.linalg.csvwrite 
csvwrite(new File("/tmp/pc.csv"), pcBreeze) 


之 后 , 我 们 将 在 IPython 中 加 载 矩 阵 并 以 图 像 的 形式 可 视 化 主 成 分 。 幸运 的 是 ,， numpy 提 供 了 
从 CSV 文 件 中 读 取 和 矩阵 的 功能 函数 : 
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pcs = np.loadtxt ("/tmp/pc.csv", delimiter=",") 
print (pcs.shape) 


你 应 该 看 到 下 面 的 输出 ， 确 认 读 取 的 矩阵 和 保存 的 矩阵 维度 相同 : 
(2500，10) 


我 们 需要 使 用 函数 显示 图 片 ， 像 这 样 定义 函数 : 


def plot_gallery (images, h, w, n_row=2, n_col=5): 
"""Helper function to plot a gallery of portraits""" 
plt.figure(figsize=(1.8 * Nn _ col, 2.4 * nrow)) 
plt.subplots_adjust (bottom=0, left=.01, right=.99, top=.90, 
hspace=.35) 
for i in range(n row * n_ col): 
plt.subplot (n_row, n_col, i + 1) 


plt.imshow (images[:, i].reshape((h, w)), cmap=plt.cm.gray) 
plt.title("Eigenface %d" % (i + 1), size=12) 
plt.xticks(()) 
plt.yticks(()) 
这 个 函数 取 自 scikit-learn 文 档 的 LFEW 数 据 集 样 例 代 码 ， 网 址 为 : 
全 


http://scikitlearn.org/stable/auto_examples/applications/face _ recognition.html。 


现在 ， 我 们 将 使 用 这 个 函数 绘制 前 10 个 特征 脸 : 
plot_gallery (pcs, 50, 50) 


结果 如 图 8-3 所 示 : 


特征 脸 1 征 胎 征 胎 特征 脸 4 


特征 脸 7 特征 脸 8 特征 脸 9 _ 特 征 脸 10 
图 


8-3 ”前 十 个 特征 脸 
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2. 解释 特征 脸 


通过 观察 处 理 过 的 图 像 , 我 们 可 以 看 到 PCA 模 型 有 效 地 提取 出 了 反复 出 现 的 变化 模式 , 表现 
了 脸 部 图 像 的 各 种 特征 。 就 像 聚 类 模型 一 样 ， 每 个 主 成 分 脸 都 是 可 以 解释 的 。 和 聚 类 一 样 ， 并 不 
总 能 直接 精确 地 解释 每 个 主 成 分 代表 的 意义 。 

从 这 些 图 片 中 我 们 可 以 看 出 ， 有 些 图 像 好 像 选择 了 方向 性 的 特征 ( 例如 图 像 6 和 图 像 9)， 有 


些 集中 表现 了 发 型 (例如 图 像 4、5、7 和 10 )， 而 其 他 的 似乎 和 面部 特征 更 相关 ， 比 如 眼睛 、 上 鼻子 
和 中 〈 例如 图 像 1、7 和 9 )。 


TT 


8.4 使 用 降 维 模型 


用 这 种 方式 可 视 化 一 个 模型 的 结果 是 很 有 意思 的 ; 但 是 降 维 方法 最 终 的 目标 则 是 要 得 到 数据 
更 加 压缩 化 的 表示 ,并 能 包含 原始 数据 之 中 重要 的 特征 和 变化 。 为 了 做 到 这 一 点 ,我 们 需要 通过 
使 用 训练 好 的 模型 ， 把 原始 数据 投影 到 用 主 成 分 表示 的 新 的 低 维 空间 上 。 


8.4.1 在 LFW 数 据 集 上 使 用 PCA 投 影 数据 


我 们 将 通过 把 每 一 个 LFW 图 像 投 影 到 10 维 的 向 量 上 来 演示 这 个 概念 。 用 和 矩阵 乘法 把 图 像 矩 阵 
和 主 成 分 矩阵 相 乘 来 实现 投影 。 因 为 图 像 矩 阵 是 分 布 式 的 MLlib RowMatrix，Spark 帮 助 我 们 实 
现 了 分 布 式 计算 的 multiply 限 数 : 


val projected = matrix.multiply (pc) 
printlin(projected.numRows, projected.numCols) 


这 将 产生 下 面 的 输出 : 
(1055,10) 


注意 每 幅 2500 维 度 的 图 像 已 经 被 转换 成 为 一 个 大 小 为 10 的 向 量 。 让 我 们 看 看 前 几 个 向 量 : 


println(projected.rows.take(5) .mkString("\n")) 
输出 如 下 : 


[2648.9455749636277,1340.3713412351376,443.67380716760965, 
-353.0021423043161,52.53102289832631,423.39861446944354, 
413.8429065865399, -484.18122999722294,87.98862070273545, 
-104.62720604921965] 
[172.67735747311974,663.9154866829355,261.0575622447282, 
-711.4857925259682,462.7663154755333,167.3082231097332, 
-71.44832640530836,624.4911488194524,892.3209964031695, 
-528.0056327351435] 
[-1063.4562028554978,388.3510869550539,1508.2535609357597, 
361.2485590837186,282.08588829583596,-554.3804376922453, 
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604.6680021092125,-224.16600191143075,-228.0771984153961, 
-110.21539201855907] 
[-4690.549692385103,241.83448841252638,-153.58903325799685, 
-28.26215061165965,521.8908276360171,-442.0430200747375, 
-490.1602309367725,-456.78026845649435,-78.79837478503592, 
70.62925170688868] 
[-2766.7960144161225,612.8408888724891,-405.76374113178616, 
-468.56458995613974,863.1136863614743,-925.0935452709143，, 
69.24586949009642,-777.3348492244131,504.54033662376435, 
257.0263568009851] 


这 些 以 向 量 形式 表示 的 投影 后 的 数据 可 以 用 来 作为 另 一 个 机 器 学 习 模型 的 输入 。 例 如 我 们 可 
以 通过 使 用 这 些 投影 后 的 脸 的 投影 数据 和 一 些 没 有 脸 的 图 像 产生 的 投影 数据 , 共同 训练 一 个 面部 
识别 模型 。 


堪 


8.4.2 PCA 和 SVD 模 型 的 关系 


我 们 之 前 提 到 PCA 和 SVD 有 着 密切 的 联系 ,事实 上 ,可 以 使 用 SVD 恢 复出 相同 的 主 成 分 向 量 ， 
并 且 应 用 相同 的 投影 矩阵 投射 到 主 成 分 空间 。 


在 我 们 的 例子 中 , SVD 计算 产生 的 右 奇异 ee ea 算得 到 的 主 成 分 。 可 以 通过 在 图 
像 矩 阵 上 计算 SVD 并 比较 右 奇异 向 量 和 PCA 的 结果 说 明 这 一 点 。 这 里 PCA 和 SVD 的 计算 都 可 以 通 
过 分 布 式 RowMatrix 提 供 的 函数 完成 : 


val svd = matrix.computeSVD(10, computeU = true) 

println(s"U dimension: (${svd.U.numRows}, S${svd.U.numCols})") 
println(s"Ss dimension: (S${svd.s.size}, )") 

println(s"V dimension: (${svd.V.numRows}, S${svd.V.numCols})") 


可 以 看 到 SVD 返 回 一 个 1055 x 10 维 的 矩阵 UU， 一 个 长 度 为 10 的 奇异 值 向 量 S 和 一 个 2500 x 10 
维 的 右 奇异 值 向 量 亚 
U dimension: (1055, 10) 


S dimension: (10, ) 
V dimension: (2500, 10) 


致 比较 两 个 矩阵 的 向 量 数据 来 确定 这 一 点 : 


def approxEqual (array1: Array[Double]l ，artray2: ArraylDoublel], 
tolerance: Double = le-6): Boolean = { 
// note we ignore sign of the principal component / singular 
vector elements 
val bools = arrayl.zip(array2) .map { case (v1, v2) => if 
(math.abs (math.abs(vi1i) - math.abs(v2)) > le-6) false else true } 
bools.fold(true)(_ & _) 
} 


我 们 在 一 些 数据 上 测试 这 个 函数 : 
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printlin(approxEqual (Array (1.0, 2.0, 3.0), Array(1.0, 2.0, 3.0))) 
这 会 给 我 们 下 面 的 输出 : 
true 
尝试 男 一 组 测试 数据 : 
println(approxEqual (Array (1.0, 2.0, 3.0), Array (3.0, 2.0, 1.0))) 
会 给 我 们 下 面 的 输出 : 
false 
最 后 ， 可 以 这 样 使 用 我 们 的 相等 函数 : 
println(approxEqual (svd.V.toArray, pc.toArray)) 
下 面 是 输出 : 
true 


另外 一 个 相关 性 体现 在 : 矩阵 w 和 向 量 8 ( 或 者 严格 来 讲 ， 对 角 和 矩阵 $ ) 的 乘积 和 PCA 中 用 来 
把 原始 图 像 数 据 投影 到 10 个 主 成 分 构成 的 空间 中 的 投影 矩阵 相等 : 


val breezeS = breeze.linalg.DenseVector(svd.s.toArray) 
val projectedqSVD = svd.U.rows.map { Vv => 
val breezeV = breeze.linalg.DenseVector(v.toArray) 
val multV = breezeV :* breezeS 
Vectors.dense (multV.data) 
} 
projected.rows.zip(projectedSsVvD) .map { case (v1l, v2) => 
approxEqual (vl.toArray, v2.toArray) }.filter(b => true) .Count 


是 1055， 因 此 基本 可 以 确定 投影 后 的 每 一 行 和 SVD 投 影 后 的 每 一 行 相等 。 


‘i 


运行 结 胃 


| 过 和 注意 在 前 面 的 代码 中 ， 高 亮 的 : * 运 算 符 表示 对 向 量 执行 对 应 元 素 和 元 素 的 
乘法 。 


8.5 评价 降 维 模型 


PCA 和 SVD 都 是 确定 性 模型 ， 就 是 对 于 给 定 输入 数据 ,总 可 以 产生 确定 结果 的 模型 。 这 和 很 
多 我 们 之 前 看 到 的 依赖 一 些 随机 因素 的 模型 不 同 ( 大 部 分 是 由 模型 的 始 化 权重 向 量 等 原因 导致 )。 

这 两 个 模型 都 确定 可 以 返回 多 个 主 成 分 或 者 奇异 值 ， 因 此 控制 模型 的 唯一 参数 就 是 k。 就 像 
聚 类 模型 , 增加 k 总 是 可 以 提高 模型 的 表现 ( 对 于 聚 类 , 表现 在 相对 误差 函数 值 ; 对 于 PCA 和 SVD， 
整体 的 不 确定 性 表现 在 [个 成 分 上 )。 因 此 ， 选 择 / 的 值 需要 折 中 ， 看 是 要 包含 尽量 多 的 数据 的 结 
构 信 息 ， 还 是 要 保持 投影 数据 的 低 维度 。 
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在 LFW 数 据 集 上 估计 SVD 的 k 值 


通过 观察 在 我 们 的 图 像 数据 集 上 计算 SVD 得 到 的 奇异 值 ， 可 以 确定 奇异 值 每 次 运行 结果 相 
同 ， 并且 是 按照 递减 的 顺序 返回 ， 如 下 所 示 : 
val sValues = (1 to 5).map { i => matrix.computeSVvD(i, computeU = 


false).s } 
sValues.foreach (println) 


这 会 展示 给 我 们 类 似 下 面 的 输出 : 


[54091.00997110354] 
[54091.00997110358,33757.702867982436] 
[54091.00997110357,33757.70286798241,24541.193694775946] 
[54091.00997110358,33757.70286798242,24541.19369477593, 
23309.58418888302] 
[54091.00997110358,33757.70286798242,24541.19369477593, 
23309.584188882982,21803.09841158358] 


为 了 估算 SVD ( 和 PCA ) 做 聚 类 时 的 [ 值 ， 以 一 个 较 大 的 [的 变化 范围 绘制 一 个 奇异 值 图 是 很 
有 用 的 。 可 以 看 到 每 增加 一 个 奇异 值 时 增加 的 变化 总 量 是 否 基 本 保持 不 变 


首先 计算 最 大 的 300 个 奇异 值 : 


val svd300 = matrix.computeSVvD(300, computeU = false) 
val sMatrix = new DenseMatrix(1, 300, svd300.s.toArray) 
csvwrite(new File("/tmp/s.csv"), sMatrix) 


再 把 奇异 值 对 应 的 向 量 S 写 到 临时 CSV 文 件 (正如 之 前 我 们 在 处 理 特征 脸 的 矩阵 时 所 作 的 ) 
并 且 在 IPython 控 制 台中 读 回 ， 为 每 个 /绘制 对 应 的 奇异 值 图 : 
s = np.loadtxt("/tmp/s.csv", delimiter=",") 


print(s.shape) 
plot(s) 


你 应 该 可 以 看 到 类 似 图 8-4 所 示 的 结果 : 


E0000 
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图 8-4 ”前 300 的 奇异 值 
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在 前 300 个 奇异 值 的 累积 和 变化 曲线 中 可 以 看 到 一 个 类 似 的 模式 ( 我 们 对 y 轴 取 了 log 对 数 ): 


plot (cumsum(s)) 
plt.yscale('log') 


107 


10° 上 


10 


这 0 50 100 150 200 250 300 


图 8-5 ”前 300 个 奇异 值 的 累积 和 


可 以 看 到 在 k 的 某 个 区 间 之 后 ( 本 例 中 大 概 是 100 ), 图 形 基本 变 平 。 这 表明 多 大 的 奇异 值 (或 
者 主 成 分 ) 的 £ 值 可 以 足够 解释 原始 数据 的 变化 。 


当然 , 如 果 使 用 降 维 来 帮助 我 们 提高 另 一 个 模型 的 性 能 , 我 们 可 以 使 用 和 那 

> 个 模型 相同 的 评价 模型 来 帮助 我 们 选择 [ 值 。 例 如 ， 我 们 可 以 使 用 AUX 短 阵 和 交 

QQ 又 验证 ， 来 为 分 类 模型 选择 模型 参数 和 为 降 维 模型 选择 k 值 。 但 是 这 会 耗费 更 高 
的 计算 资源 ， 因 为 我 们 必须 重 算 整 个 模型 的 训练 和 测试 过 程 。 


8.6 小 结 


在 这 一 章 , 我 们 学 习 了 两 个 新 的 无 监督 学 习 模 型 ， 用 于 降低 维度 的 PCA 和 SVD。 我 们 了 解 了 
如 何 从 脸 部 图 像 数据 中 提取 特征 来 训练 模型 。 通 过 特征 脸 可 视 化 模型 的 结果 , 学 习 了 如 何 利 用 模 
型 把 原始 数据 转换 成 缩减 维度 后 的 表示 ， 并 人 研究 了 PCA 和 SVD 之 间 的 紧密 联系 。 


下 一 章 ， 我 们 将 深入 学 习 Spark 在 文本 处 理 和 分 析 方 面 的 技术 。 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


Spark 高 级 文本 处 理 技术 


在 第 3 章 中 ,我 们 讨论 了 有 关 特 征 提取 和 数据 处 理 的 多 个 问题 ， 其 中 包括 从 文本 数据 中 提取 
特征 的 基础 知识 。 在 这 一 章 中 ， 我 们 将 继续 介绍 MLlib 中 的 高 级 文本 处 理 技术 ， 这 些 技术 专门 针 
对 大 规模 的 文本 处 理 。 


在 本 章 中 ， 我 们 将 : 


口 学 习 几 个 和 文本 数据 相关 的 数据 处 理 、 特 征 提 取 和 建 模 流 程 的 详细 例子 ; 
口 根据 文档 中 的 文字 比较 两 篇 文章 的 相似 性 ; 
口 使 用 提取 的 文本 特征 作为 分 类 模型 的 训练 输入 ; 

口 讨论 近期 新 产生 的 自然 语言 处 理 的 词 向 量 建 模 模型 ,演示 如 何 使 用 Spark 的 Word2Vec 模 型 
来 根据 词义 比较 两 个 词语 的 相似 性 。 


9.1 处理 文本 数据 有 什么 特别 之 处 


文本 数据 处 理 的 复杂 性 源 于 两 个 原因 。 第 一 , 文本 和 语言 有 隐 含 的 结构 信息 , 使 用 原始 的 文 
本 很 难 捕捉 到 ( 例如, 含义、 上下文 、 不 同 词性 的 词语 、 句 法 结构 和 不 同 的 语言 ， 这 些 都 是 表现 
明显 的 几 个 方面 ) 因此 ,单纯 的 特征 提取 方法 常常 没有 太 大 效果 。 


第 二 , 文本 数据 的 有 效 维度 一 般 都 非常 巨大 甚至 是 无 限 的 。 试 想 一 下 英语 中 的 单词 、 所 有 特 
殊 词 、 字 符 、 俗语 等 的 总 数 有 多 少 , 然后 加 上 其 他 语言 和 所 有 可 以 在 互联 网 上 找到 的 文本 。 因 此 ， 
即使 在 较 小 的 数据 集 上 , 文本 数据 按照 单词 得 到 的 维度 也 可 以 轻易 超过 数 十 万 甚至 数 百 万 。 例 如 ， 
Common Cawl 数 据 集 就 是 从 几 十 亿 个 网 站 扑 得 的 ， 包含 了 8400 亿 单词 。 


为 了 处 理 这 个 问题 , 我 们 需要 提取 更 多 的 结构 特征 , 并 需要 一 种 可 以 处 理 极 大 维度 文本 数据 
的 方法 。 


9.2 ”从 数据 中 抽取 合适 的 特征 


自然 语言 处 理 (NLP ) 领域 研究 文本 处 理 的 技术 包括 提取 特征 、 建 模 和 机 带 学 习 。 在 这 一 章 
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中 ,我 们 着 重 讨论 MLlib 包 含 的 两 种 特征 提取 技术 : TF-IDF 短 语 加 权 表 示 和 特征 哈 希 。 


通过 学 习 TF-IDF 的 例子 , 还 可 以 了 解 用 于 提取 特征 的 文本 人 处理、 分 词 和 过 滤 技 术 , 帮助 我 们 
降低 输入 数据 的 维度 ， 并 能 提高 提取 特征 的 信息 含量 和 有 用 性 。 


9.2.1 短语 加 权 表 示 


在 第 3 章 中 ,我们 学 习 了 词 袋 模型 ， 即 把 文本 特征 映射 到 简单 的 二 进 制 向 量 的 词 向 量 形式 。 
男 一 个 实践 中 通常 会 用 到 的 形式 叫 作词 频 - 逆 文本 频率 ( TF-IDF )。 


TF-IDF 给 一 段 文本 ( 叫 作文 档 ) 中 每 一 个 词 赋予 一 个 权 值 。 这 个 权 值 是 基于 单词 在 文本 中 出 
现 的 频率 ( 词 频 ) 计算 得 到 的 。 同 时 还 要 应 用 逆向 文本 频率 做 全 局 的 归 一 化 。 送 向 文本 频率 是 基 
于 单词 在 所 有 文档 ( 所 有 文档 的 集合 对 应 的 数据 集 通 常 称 作 文集 ) 中 的 频率 计算 得 到 的 。TF-IDF 
计算 的 标准 定义 如 下 : 


tf idf(t,d) = tf(t,d) x idfd) 


这 里 ， 大 4 四 是 单词 在 文档 4 中 的 频率 (出现 的 次 数 )，idfg 是 文集 中 单词 的 道 向 文本 频率 ; 
定义 如 下 : 


idf(1) = log(N/d) 
这 里 是 文档 的 总 数 ，d 是 出 现 过 单词 的 文档 数量 。 


TF-IDF 公 式 的 含义 是 :在 一 个 文档 中 出 现 次 数 很 多 的 词 相 比 出 现 次 数 少 的 词 应 该 在 词 向 量 表 
示 中 得 到 更 高 的 权 值 。 而 IDF 归 一 化 起 到 了 减弱 在 所 有 文档 中 总 是 出 现 的 词 的 作用 。 最 后 的 结果 
就 是 , 稀有 的 或 者 重要 的 词 被 给 予 了 更 高 的 权 值 ， 而 更 加 常用 的 单词 (被 认为 比较 不 重要 ) 则 在 
考虑 权重 的 时 候 有 较 小 的 影响 。 


这 木 书 是 学 习 词 袋 模型 (或 者 词 向 量 空间 模型 ) 的 一 个 优秀 资源 :《 信 息 检 
索 导 论 》, Christopher D. Manning、Prabhakar Raghavan 和 Hinrich Schiitze 著 ， 剑 
桥 大 学 出 版 社 出 版 (HTML 格式 可 在 http:/nlp.stanford.eduTRbookhtml/ 


htmledition/ irbook.html 获 得 )。 
~> 这 本 书 中 有 几 节 简 述 了 文本 处 理 技术 ， 包 括 分 词 、 移 除 连 接 词 、 词 根 技术 、 
向 量 空间 模型 ， 还 有 类 似 TF-IDF 这 样 的 权重 表示 。 
这 里 也 有 一 个 相关 的 概要 介绍 : http:/en.wikipedia.org/wiki/Tfo6E29%80% 
93idf。 
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9.2.2 ”特征 哈 希 


特征 哈 希 是 一 种 处 理 高 维 数据 的 技术 , 并 经 常 被 应 用 在 文本 和 分 类 数据 集 上 , 这 些 数据 集 的 
特征 可 以 取 很 多 不 同 的 值 ( 经常 是 好 几 百 万 个 值 )。 前 儿童 中 , 我 们 经 常 使 用 k 分 之 一 编码 方法 处 
理 包括 文本 的 分 类 特征 。 这 种 方法 简单 有 效 ， 但 是 对 于 非常 高 维 的 数据 却 不 易 使 用 。 


构造 使 用 k 分 之 一 特征 编码 需要 在 一 个 向 量 中 维护 可 能 的 特征 值 到 下 标的 上 映射。 另外， 构建 
这 个 映射 的 过 程 本 身 至 少 需要 额外 对 数据 集 的 一 次 遍历 , 这 在 并 行 场景 下 会 比较 麻烦 。 到 现在 为 
止 , 我 们 已 经 使 用 了 一 个 简单 的 方法 收集 不 同 的 特征 值 , 并 把 这 个 集合 和 一 组 下 标 组 合 在 一 起 创 
建 一 个 特征 值 到 下 标的 映射 关系 。 这 个 映射 关系 被 广播 ( 显 式 地 写 在 我 们 的 代码 中 或 者 隐 式 地 被 
Spark 处 理 ) 到 各 个 执行 节点 。 


但 是 ， 处 理 文本 时 会 经 常 遇 到 上 千 万 甚至 更 多 维度 的 特征 需要 处 理 ， 这 种 方法 就 会 很 慢 ， 
并 且 Spark 的 主 节 点 〈 收 集 每 一 个 节点 的 计算 结果 ) 和 工作 节点 都 会 消耗 巨 量 的 内 存 (为 了 对 本 


地 输入 的 数据 切片 应 用 特征 编码 ， 需要 广播 映射 结果 到 每 一 个 工作 节点 ， 并 存储 在 内 存 ) 及 网 


特征 哈 希 通过 使 用 喻 希 方程 对 特征 赋予 向 量 下 标 , 这 个 向 量 下 标 是 通过 对 特征 的 值 做 哈 希 得 
到 的 (通常 是 整数 ) 例如 ,对 分 类 特征 中 的 美国 这 个 位 置 特征 得 到 的 哈 希 值 是 342。 我们 将 使 用 
哈 希 值 作为 向 量 下 标 ， 对 应 的 值 是 1.0， 表 示 美 国 这 个 特征 出 现 了 。 使 用 的 哈 希 方程 必须 是 一 至 
的 〈 就 是 说 ， 对 于 一 个 给 定 的 输入 ， 每 次 返回 相同 的 输出 )。 


这 种 编码 工作 的 方式 和 基于 映射 的 编码 一 样 ， 只 不 过 需要 预先 选择 特征 向 量 的 大 小 。 因 为 最 
常用 的 哈 希 函数 返回 整个 整数 域内 的 任意 值 , 我 们 将 使 用 模 操 作 来 限制 下 标的 值 到 一 个 特定 的 大 
小 ， 远 远 小 于 整数 域 的 大 小 〈 根据 需要 取 数 千 上 万 直至 几 百 万 )。 


特征 哈 希 的 优势 在 于 不 再 需要 构建 映射 并 把 它 保 存在 内 存 中 。 特征 哈 希 很 容易 实现 , 并 且 非 
常 快 ， 可 以 在 线 或 者 实时 生成 ， 因 此 不 需要 预先 扫 措 一遍 数据 集 。 最 后 ， 因 为 我 们 选择 了 维度 远 
远 小 于 原始 数据 集 的 特征 向 量 , 限制 了 模型 的 训练 和 预测 时 内 存 的 使 用 规模 , 所 以 内 存 使 用 量 并 
不 会 随 数据 量 和 维度 的 增加 而 增加 。 


然而 ， 特 征 哈 希 依然 有 两 个 重要 的 缺陷 。 


口 因为 我 们 没有 创建 特征 到 下 标的 映射 ， 也 就 不 能 做 逆向 转换 把 下 标 转 换 为 特征 。 例 如 ， 
如 何 判断 哪些 特征 在 我 们 的 模型 中 是 含有 信息 量 最 大 的 将 会 变 得 比较 困难 。 

口 因为 我 们 限制 了 特征 向 量 的 大 小 ， 当 两 个 不 同 的 特征 被 哈 希 到 同一 个 下 标 时 会 产生 哈 希 
冲突 。 令 人 惊讶 的 是 ， 只 要 我 们 选择 了 一 个 相对 合理 的 特征 向 量 维度 ， 这 种 冲突 貌似 对 
于 模型 的 效果 没有 太 大 的 影响 。 
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在 下 面 的 网 址 中 可 以 找到 关于 哈 希 技术 的 更 多 信息 : http://en.wikipedia.org/ 
wiki/Hash function。 
这 里 有 一 篇 重要 的 使 用 哈 希 做 特征 抽取 和 机 器 学 习 的 论文 : Kilian 
一 Weinberger, Anirban Dasgupta, John Langford, Alex Smola, and Josh Attenberg. 
Feature Hashing for Large Scale Multitask Learning. Proc. ICML 2009， 可 以 从 
http://alex.smola.org/ papers/2009/Weinbergeretal09.pdf 下 载 。 


9.2.3 从 20 新 闻 组 数据 集中 提取 TF-IDF 特 征 


为 了 说 明 本 章 的 概念 ， 我 们 将 使 用 一 个 非常 有 名 的 数据 集 ， 叫 作 20 Newsgroups; 这 个 数据 
集 一 般 用 来 做 文本 分 类 。 这 是 一 个 由 20 个 不 同 主题 的 新 闻 组 消息 组 成 的 集合 ,， 有 很 多 种 不 同 的 数 
据 格式 。 对 于 我 们 的 任务 来 说 ， 可 以 使 用 按 日 期 组 织 的 数据 集 。 在 下 面 的 网 站 下 载 这 个 数据 集 : 
http://qwone.com/~jason/20Newsgroups。 


这 个 数据 集 把 可 用 数据 拆 分 成 训练 集 和 测试 集 两 部 分 ， 分 别 包含 原 数据 集 的 60% 和 40%。 测 


试 集中 的 新 闻 组 消息 发 生 的 时 候 在 在 训练 集 之 后 。 这 个 数据 集 也 排除 了 用 来 分 辨 所 属 真实 新 闻 组 
的 消息 头 信息 ; 因此 ， 这 是 一 个 测试 分 类 模型 在 现实 中 表现 的 很 合适 的 数据 集 。 


想 了 解 该 数据 集 的 更 多 信息 ， 请 参考 UCI 机 器 学 习 档 案 库 : http://kdd.ics.uci. 
一 edu/ databases/20newsgroups/20newsgroups.data.html。 
下 面 我 们 开始 ， 首 先 通 过 命令 下 载 解压 文件 : 
>tar xfvz 20news-bydate.tar.gz 


创建 了 两 个 文件 夹 : 一 个 是 20news-bydate-train ， 另 一 个 是 20news-bydate-test。 看 一 下 训练 集 
目录 下 的 子 文件 夹 结 构 : 


>cd 20news-bydate-train/ 
>1ls 


可 以 看 到 它 包含 很 多 子 文件 来 ， 每 个 新 闻 组 一 个 文件 夹 : 


alt .atheism Comp .windows . 式 Tec .SPort .hockey 
soc.religion.christian 

comp.graphics misc.forsale sci.crypt 
talk.politics.guns 

comp .os .ms-windows .misc rec.autos sci.electronics 
talk.politics.mideast 

Comp.sys.ibm.pc.hardware rec.motorcycles sci.med 


talk.politics.misc 
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comp.sys.mac.hardware rec.sport.baseball sci.space 
talk.religion.misc 


每 一 个 新 闻 组 文件 夹 内 都 有 很 多 文件 ， 每 个 文件 包含 一 条 消息 : 


> ls rec.sport.hockey 
52550 52580 52610 52640 53468 53550 53580 53610 53640 53670 53700 
53731 53761 53791 


我 们 来 看 其 中 一 条 消息 的 部 分 内 容 以 了 解 格 式 : 


> head -20 rec.sport.hockey/52550 

From: dchhabra@stpl.ists.ca (Deepak Chhabra) 

Subject: Superstars and attendance (was Teemu Selanne, was +/- 
leaders) 

Nntp-Posting-Host: stpl.ists.ca 

Organization: Solar Terresterial Physics Laboratory, ISTS 
Distribution: na 

Lines: 115 


Dean J. Falcione (posting from jrmst+8@pitt.edu) writes: 
[I wrote:] 


>>When the Pens got Mario, granted there was big publicity, etc, etc, 
>>and interest was immediately generated. Gretzky did the same thing 
for LA. 

>>However, imnsho, neither team would have seen a marked improvement 
in 

>>attendance if the team record did not improve. In the year before 
Lemieux 

>>came, Pittsburgh finished with 38 points. Following his arrival, 
the Pens 

>>finished with 53, 76, 72, 81, 87, 72, 88, and 87 points, with a 


Couple of 
人 人 


>>Stanley Cups thrown in. 
我 们 看 到 每 条 消息 都 包含 一 个 消息 头 ， 其 中 有 发 送 者 、 主 题 和 一 些 其 他 原始 信息 ,然后 是 消 
息 的 原始 内 容 。 
1. 分 析 20 Newsgroups 数 据 
打开 Spark 的 Scala 控 制 台 ， 确 保有 足够 大 的 内 存 : 9 


>./SPARK HOME/bin/spark-shell --driver-memory 4g 


看 看 目录 结构 ， 确 认 我 们 的 数据 以 独立 文件 的 形式 存在 ( 每 个 文件 一 条 消息 )。 因 此 ， 我 们 
需要 使 用 Spark 的 wholeTextFiles 方 法 来 把 每 个 文件 的 内 容 读 取 到 RDD 的 一 个 记录 中 。 
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在 下 面 的 代码 中 ，PATH 指 向 的 路 径 是 解压 20news-bydate 压 缩 包 后 的 文件 夹 : 


val path = "/PATH/20news-bydate-train/*" 

val rdd = sc.wholeTextFiles (path) 

val text = rdd.map { case (file, text) => text } 
printlin(text.count) 


第 一 次 运行 上 面 的 命令 可 能 需要 花费 一 些 时 间 ， 因 为 Spark 需 要 扫描 整个 目录 结构 。 同 样 也 
会 看 到 很 多 控制 台 输出 ， 因 为 Spark 会 记录 处 理 过 的 所 有 文件 路 径 。 在 这 里 ,你 会 看 到 下 面 一 行 ， 
即 Spark 一 共 发 现 的 文件 总 数 : 


14/10/12 14:27:54 INFO FileInputFormat: Total input paths to process 
: 11314 


命令 运行 结束 ， 将 会 看 到 总 共 的 记录 数目 ， 这 个 数目 应 该 和 之 前 的 “Total input paths to 
process” 的 屏幕 输出 一 致 ; 

11314 

然后 我 们 看 一 下 得 到 的 新 闻 组 主题 : 


val newsgroups = rdd.map { case (file, text) => 
file.split("/").takeRight (2) .head } 

val countByGroup = newsgroups.map(n => (n, 1)).reduceByKey 
(_ + _).collect.sortBy(-_._2) .mkString("\n") 
println(countByGroup) 


将 会 产生 下 面 的 输出 : 


(rec.sport.hockey,600) 
(soc.religion.christian,599) 
(rec.motorcycles,598) 
(rec.sport.baseball,597) 
(sci.crypt,595) 
(rec.autos,594) 

(sci.med,594) 

(comp .windows .x, 593) 
(sci.space,593) 
(sci.electronics,591) 

(comp .os .ms-windows .misc,591) 
(comp.sys.ibm.pc.hardware,590) 
(misc.forsale,585) 
(comp.graphics,584) 
(comp.sys.mac.hardware,578) 
(talk.politics.mideast,564) 
(talk.politics.guns,546) 

(alt .atheism,480) 
(talk.politics.misc,465) 
(talk.religion.misc,377) 


各 个 主题 中 的 消息 数量 基本 相等 。 
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2. 应 用 基本 的 分 词 方法 


我 们 文本 处 理 流程 的 第 步 就 是 切 分 每 一 个 文档 的 原始 内 容 为 多 个 单词 ( 也 叫 作词 项 )， 组 
成 集合 。 这 个 过 程 叫 作 分 词 。 我 们 实现 最 简单 的 空格 分 词 ， 并 把 每 个 文档 的 所 有 单词 变 为 小 写 : 
val text = rdd.map { case (file, text) => text } 


val whiteSpaceSplit = text.flatMap(t => t.split(" ").map(_.toLowerCase)) 
println(whiteSpaceSplit.distinct.count) 


RR 因为 需要 进行 探索 性 分 析 ， 上 面 代码 中 没有 使 用 map， 而 是 使 用 flatMap 
Q 函数 。 在 本 章 后 面 ， 我们 将 对 每 篇 文章 应 用 相同 的 分 词 方案 , 到 时 候 将 使 用 map 
函数 。 


运行 完 之 前 的 代码 片段 ， 你 将 会 得 到 分 词 之 后 不 同 单词 的 数量 : 

402978 

正如 你 所 见 ， 即 使 对 于 相对 较 小 的 文本 集 ， 不 同 单词 的 个 数 〈 也 就 是 我 们 特征 向 量 的 维度 ) 
也 可 能 会 非常 高 。 

让 我 们 看 一 篇 随机 选择 的 文档 : 


println(whiteSpaceSplit.sample 
(true, 0.3, 42) .take(100) .mkstring(",")) 


注意 我 们 传 给 sample 函 数 的 第 三 个 参数 ， 一 个 随机 种 子 。 我 们 设置 它 为 
42， 这 样 就 会 在 每 次 调用 sample 后 得 到 相同 的 结果 ， 你 们 的 结果 也 应 该 和 书 
中 的 相同 。 


此 时 会 显示 下 面 的 结果 : 


atheist,resources 

summary:,addresses, ,to,atheism 

keywords: ,music,,thu,,11:57:19,11:57:19,gmt 
distribution:,cambridge.,290 

archive-name:,atheism/resources 
alt-atheism-archive-name:ydecember,vvrrrrrrrrrrrrrrrrrrraddresses，address 
egsvvvrryv 

religion,to:,to:,,p.0.,53701. 
telephone:,sell,the,,fish,on,their,cars, ,with,and,written 
inside.,3d,plastic,plastic,,evolution,evolution,7119,,,,,san,san,san, 
mailing,net,who,to,atheist,press 


aap,various,bible,,and,on.,,,one,book,is: 


"the,w.p.,american,pp.,,1986.,bible,contains,ball,,based,based, james,of 
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3. 改进 分 词 效果 


之 前 简单 的 分 词 方法 产生 了 很 多 单词 ,而 且 许 多 不 是 单词 的 字符 ( 比如 标点 符号 ) 没有 过 滤 
掉 。 大 部 分 分 词 方案 都 会 把 这 些 字符 移 除 。 我 们 可 以 使 用 正则 表达 切 分 原始 文档 来 移 除 这 些 非 单 
词 字符 : 


val nonWordSplit = text.flatMap(t => 
t.split("""\W+""") .map(_.toLowerCase)) 
println (nonWordSplit.distinct.count) 


这 将 极 大 减少 不 同 单词 的 数量 : 
130126 
观察 一 下 前 儿 个 单词 ， 我们 已 经 去 除了 文本 中 大 部 分 没有 用 的 字符 : 


printlin(nonWordSplit.distinct.sample 
(true, 0.3, 42) .take(100) .mkString(",") 


输出 结果 : 


bone,k29p,wlw3s1,odwyer,dnj33n,bruns,_congressional,mmejv5,mmejv5,art 
ur,125215,entitlements,beleive,1lpqd9hinnbmi, 
jxicaijp,b0vp,underscored,believiing,qsins,1472,urtfi,nauseam,tohc4,k 
ielbasa,ao,wargame, seetex,museum,typeset,pgva4d, 

dcbq,ja jp,ww4ewa4g,animating,animating,10011100b,10011100b,413,wp3d, 
wp3d,cannibal, searflame,ets,1qjfnv,6jx,6jx, 
detergent,yan,aanp,unaskable, mf,bowdoin,chov,16mb,createwindow,kjznk 
h,df,classifieds,hour,cfsmo,santiago,santiago, 

lrld62,almanac ,almanac ,chq,nowadays,formac,formac,bacteriophage,bar 
king,barking,barking,ipmgocj7b,monger,projector, 
hama,65e90h8y,homewriter,c15,1496,zysec,homerific,O00ecgillespie,O00ecg 
illespie,mqh0,suspects,steve mullins,io21087, 
funded,liberated,canonical,throng, 0hnz,exxon,xtappcontext,mcdcup,mcdc 
up,5seg,biscuits 


尽管 我 们 使 用 非 单词 正则 模式 来 切 分 文本 的 效果 不 错 ， 但 仍然 有 很 多 包含 数字 的 单词 剩 下 。 
在 有 些 情况 下 ,数字 会 成 为 文档 中 的 重要 内 容 。 但 对 于 我 们 来 说 ,下 一 步 就 是 要 过 滤 掉 数字 和 包 
含 数字 的 单词 。 


使 用 正则 模式 可 以 过 滤 掉 和 这 个 模式 不 匹配 的 单词 : 


Val ‘ede Em M0 

val filterNumbers = nonWordSplit.filter(token => 
regex.pattern.matcher (token) .matches) 
printlin(filterNumbers.distinct.count) 


这 再 次 减 小 了 单词 集 的 大 小 : 


84912 
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让 我 们 再 随机 来 看 另 一 个 过 滤 完 单词 后 的 例子 : 


println(filterNumbers.distinct.sample 
(true, 0.3, 42) .take(100) .mkString(",")) 


输出 : 


reunion,wuair,schwabam,eer,silikian,fuller,sloppiness,crying,crying, 
beckmans, leymarie, fowl,husky,rlhzrlhz,ignore, 
loyalists,goofed,arius,isgal,dfuller,neurologists,robin,jxicaijp, 
majorly,nondiscriminatory,akl,sively,adultery, 
urtfi,kielbasa,ao,instantaneous, subscriptions,collins,collins,za ,za 
:jmckinney,nonmeasurable,nonmeasurable, 

seetex,kjvar,dcbq,randall clark,theoreticians,theoreticians, 
congresswoman, sparcstaton,diccon,nonnemacher, 
arresed,ets,sganet,internship,bombay,keysym,newsserver,connecters, 
igpp,aichi,impute,impute,raffle,nixdorf, 
nixdorf,amazement,butterfield,geosync,geosync,scoliosis,eng,eng,eng, 
kjznkh,explorers,antisemites,bombardments, 
abba,caramate,tully,mishandles,wgtn, springer,nkm,nkm,alchoholic,chq, 
shutdown,bruncati,nowadays,mtearle,eastre, 
discernible,bacteriophage,paradijs,systematically,rluap,rluap,blown, 
moderates 


可 以 看 到 , 我 们 移 除了 所 有 的 数字 字符 。 尽 管 还 有 一 些 奇 怪 的 单词 剩 下 , 但 已 经 可 以 接受 了 。 
4. 移 除 停 用 词 


停 用 词 是 指出 现在 一 个 文本 集 ( 和 大 多 数 文本 集 ) 所 有 文档 中 很 多 次 的 常用 词 。 标 准 的 英语 
停 用 词 包 括 and、but、the、of 等 。 提 取 文本 特征 的 标准 做 法 是 从 抽取 的 词 中 排除 停 用 词 。 


当 使 用 TF-IDF 加 权时 ， 加 权 模 式 已 经 做 了 这 点 。 一 个 停 用 词 总 是 有 很 低 的 IDF 分 数 ， 会 有 一 
个 很 低 的 TF-IDF 权 值 ， 因 此 成 为 一 个 不 重要 的 词 。 有 些 时 候 ， 对 于 信息 检索 和 搜索 任务 ， 停 用 词 
又 需要 被 包含 。 但 是 , 最 好 还 是 在 提取 特征 时 移 除 停 用 词 ， 因 为 这 可 以 降低 最 后 特征 向 量 的 维度 
和 训练 数据 的 大 小 。 


来 看 看 所 有 文档 中 高 频 的 词语 ， 看 看 还 有 没有 需要 除 掉 的 停 用 词 


val tokenCounts = filterNumbers.map(t => (t, 1)).reduceByKey(_ + _) 
val oreringDesc = Ordering.by[ (String, Int), Int](_._2) 
println(tokenCounts.top(20) (oreringDesc) .mkString("\n")) 


这 有 段 代码 中 , 我 们 用 过 滤 完 数字 字符 之 后 的 单词 集合 生成 一 个 每 个 单词 在 文档 中 出 现 频率 的 
集合 。 现 在 可 以 使 用 Spark 的 top 函 数 来 得 到 前 20 个 出 现 次数 最 多 的 单词 。 ee 给 top 畏 
数 一 个 排序 方法 ， 告诉 Spark 如 何 给 RDD 中 的 元 素 排 序 。 在 这 种 情况 下 ， 我们 需要 按照 次 数 排序 ， 
因此 设置 按照 键 值 对 的 第 二 个 元 素 排序 。 


运行 上 面 的 代码 ， 得 到 下 面 名 列 前 茅 的 单词 : 


~ 


万: 
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(the,146532) 
(to,75064) 
(of,69034) 
(a,64195) 
(ax, 62406) 
(and,57957) 
(i,53036) 
(in,49402) 
(is,43480) 
(that,39264) 
(it,33638) 
(for,28600) 
(you, 26682) 
(from,22670) 
(s,22337) 
(edu, 21321) 
(on,20493) 
(this,20121) 
(be,19285) 
(t,18728) 


如 我 们 预料 , 很 多 常用 词 可 以 被 标注 为 停 用 词 。 把 这 些 词 中 的 某 些 词 和 其 他 常用 词 集合 成 一 
个 停 用 词 集 ， 过 滤 掉 这 些 词 之 后 就 可 以 看 到 剩 下 的 单词 


val stopwords = Set( 


DD Bo Ld = he Ce ea Nh oN oh oh oC ee i op oi bm "not™, 
with".; TB "WaS ui 
Iey 人 tr "thigs" Ad it" » have", Vfrom,; att; Wi 
"ben "that" nto" 
’ ’ 


val tokenCountsFilteredStopwords = tokenCounts.filter { case 

(Kk, VvV) => !stopwords.contains (k) } 
println(tokenCountsFilteredStopwords.top(20) (oreringDesc) .mkString 
(AT 


输出 : 


(ax, 62406) 
(i,53036) 

(you, 26682) 
(s,22337) 

(edu, 21321) 
(t,18728) 

(m, 12756) 
(subject,12264) 
(com,12133) 
(lines,11835) 
(can,11355) 
(organization,11233) 
(re,10534) 
(what,9861) 
(there,9689) 
(x, 9332) 
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(all,9310) 
(will,9279) 
(we, 9227) 

(one,9008) 


你 可 能 注意 到 了 ， 排行 榜 里 仍然 有 一 些 常 用 词 。 事实 上 , 我 们 应 该 有 一 个 大 得 多 的 停 用 词 集 
合 。 但 这 里 我 们 将 使 用 小 地 停 用 词 集 ( 部 分 原因 是 为 了 之 后 展示 TF-IDF 对 于 常用 词 的 影响 )。 


下 一 步 ,我们 将 删除 那些 仅仅 含有 一 个 字符 的 单词 。 这 和 我 们 移 除 停 用 词 的 原因 类 似 。 这 些 
单独 字符 组 成 的 单词 不 太 可 能 包含 太 多 信息 。 因 此 可 以 删除 它们 来 降低 特征 维度 和 模型 大 小 : 


val tokenCountsFilteredSize = tokenCountsFilteredStopwords.filter 
{ case (k, v) => k.size >= 2 } 
println(tokenCountsFilteredSize.top(20) (oreringDesc) .mkString 
Ca ' 


再 来 检查 一 下 过 滤 之 后 剩 下 的 单词 : 


(ax, 62406) 
(you, 26682) 
(edu, 21321) 
(subject,12264) 
(com,12133) 
(lines,11835) 
(can,11355) 
(organization,11233) 
(re,10534) 
(what, 9861) 
(there,9689) 
(all,9310) 
(will,9279) 
(we, 9227) 
(one,9008) 
(would,8905) 
(do, 8674) 
(he,8441) 
(about, 8336) 
(writes,7844) 


除了 那些 尚未 删 掉 的 经 常 出 现 的 词 ， 我 们 发 现 了 一 些 可 能 有 意义 的 词 。 
5. 基于 频率 去 除 单词 


在 分 词 的 时 候 , 还 有 一 种 比较 常用 的 去 除 单词 的 方法 是 去 掉 在 整个 文本 库 中 出 现 频率 很 低 的 
单词 。 例如 , 检查 文本 库 中 出 现 频 率 最 低 的 单词 ( 注意 这 里 我 们 使 用 不 同 的 排序 方式 , 返回 上 升 
排序 的 结果 ): 


val oreringAsc = Ordering.by[ (String, Int), Int](-_._2) 
println(tokenCountsFilteredSize.top(20) (oreringAsc) .mkString 
(ni 
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结 


(lennips,1) 
(bluffing,1) 
(preload,1) 
(altina,1) 

(dan_ jacobson,1) 
(vno,1) 

(actu,1) 
(donnalyn, 1) 
(ydag,1) 
(mirosoft,1) 
(xiconfiywindow,1) 
(harger,1) 
(feh,1) 
(bankruptcies,1) 
(uncompression,1) 
(d_nibby,1) 
(bunuel,1) 


(odf,1) 

(swith,1) 

(lantastic,1) 

正如 我 们 看 到 的 , 很 多 短语 在 整个 文集 中 只 出 现 一 次 。 对 于 使 用 提取 特征 来 完成 的 任务 ， 比 


如 文本 相似 度 比较 或 者 生成 机 器 学 习 模型 ， 只 出 现 一 ee 因为 这 些 单 词 我 们 
没有 足够 的 训练 数据 。 应 用 男 一 个 过 滤 函 数 来 排除 这 些 很 少 出 现 的 单词 : 


val rareTokens = tokenCounts.filter{ case (k, v) =>V< 2 }.map { 
case (k, Vv) => k }.collect.toSet 

val tokenCountsFilteredAll = tokenCountsFilteredSize.filter { case 
(Kk, VvV) => !rareTokens.contains (k) } 
println(tokenCountsFilteredAll.top(20) (oreringAsc) .mkString("\n")) 


剩 下 的 是 至 少 出 现 了 两 次 的 单词 : 


(sina,2) 
(akachhy, 2) 
(mvd,2) 
(hizbolah, 2) 
(wendel clark,2) 
(sarkis,2) 
(purposeful,2) 
(feagans,2) 
(wout,2) 
(uneven, 2) 
(senna,2) 
(multimeters,2) 
(bushy, 2) 
(subdivided,2) 
(coretest,2) 
(oww, 2) 
(historicity,2) 
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(mmg, 2) 
(margitan,2) 
(defiance,2) 


现在 ,计算 不 同 的 单词 有 和 多少: 

println(tokenCountsFilteredAll .count) 

会 看 到 下 面 的 输出 : 

51801 

通过 在 分 词 流程 中 应 用 所 有 这 些 过 滤 步 骤 ， 把 特征 的 维度 从 402 978 降 到 了 51 801。 
现在 把 过 滤 逻 辑 组 合 到 一 个 函数 中 ， 并 应 用 到 RDD 中 的 每 个 文档 : 


def tokenize(line: String): SeqlString] = { 
line.split("""\W+""") 

-map (_.toLowerCase) 
.filter(token => regex.pattern.matcher (token) .matches) 
.filterNot (token => stopwords.contains (token)) 
.filterNot (token => rareTokens.contains (token)) 
.filter(token => token.size >= 2) 
.toSeq 

} 


通过 下 面 的 代码 可 以 检查 这 个 函数 是 否 给 出 相同 的 输出 : 


println(text.flatMap(doc => tokenize(doc)) .distinct.count) 
结果 会 输出 51 801， 这 和 我 们 一 步 一 步 执行 整个 流程 得 到 的 结果 完全 一 致 。 
我 们 可 以 把 RDD 中 的 每 个 文档 按照 下 面 的 方式 分 词 : 


Val tokens = text.map(doc => tokenize(dqoc) ) 
println(tokens.first.take(20)) 


你 将 会 看 到 类 似 下 面 的 输出 ， 这 里 展示 了 第 一 篇 文档 第 一 部 分 的 分 词 结 


WrappedArray (mathew, mathew, mantis, co, uk, subject, alt, atheism, 
faq, atheist, resources, summary, books, addresses, music, anything, 
related, atheism, keywords, faq) 


6. 关于 提取 词 干 

提取 词 干 在 文本 处 理 和 分 词 中 比较 党 用。 这 是 一 种 把 整个 单词 转换 为 一 个 基 的 形式 ( 叫 作词 9 
根 ) 的 方法 。 例 如 ， 复 数 形式 可 以 转换 为 单数 ( dogs 变 成 dog )， 像 walking 和 walker 这 样 的 可 以 转 
换 为 walk。 提 取 词 干 很 复杂 ， 一 般 通过 标准 的 NLP 方法 或 者 搜索 引擎 软件 实现 (例如 NLTK、 
OpenNLP 和 Lucene )。 在 这 里 的 例子 中 ， 我 们 将 不 考虑 提取 词 干 。 
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完整 的 提取 词 干 的 方法 超出 了 本 书 讨 论 的 范围 ,可 以 在 下 面 的 网 址 中 找到 更 
~> 多 的 信息 : http://en.wikipedia.org/wiki/Stemming。 


7. 训练 TF-IDF 模 型 


现在 我 们 使 用 MLlib 把 每 篇 处 理 成 词 项 形式 的 文档 以 向 量 形式 表达 。 第 一 步 是 使 用 
HashingTF 实 现 , 它 使 用 特征 哈 希 把 每 个 输入 文本 的 词 项 映射 为 一 个 词 频 向 量 的 下 标 。 之 后 , 使 
用 一 个 全 局 的 IDF 向 量 把 词 频 向 量 转换 为 TF-IDF 向 量 。 


每 个 词 项 的 下 标 是 这 个 词 的 哈 希 值 (依次 映射 到 特征 向 量 的 某 个 维度 )。 词 项 的 值 是 本 身 的 
TF-IDF 权 重 ( 即 词 项 的 频率 乘 以 道 文本 频率 )。 

首先 ， 引 入 我 们 需要 的 类 ， 创 建 一 个 HashingTE 实 例 ， 传 人 维度 参数 qim。 默 认 特 征 维度 是 
202 (或 者 接近 一 百 万 )， 因 此 我 们 选择 2* ( 或 者 26 000 )， 因 为 使 用 50 000 个 单词 应 该 不 会 产生 
很 多 的 哈 希 冲突 ， 而 较 少 的 维度 占用 内 存 更 少 并 且 展 示 起 来 更 方便 : 


import org.apache.spark.mllib.linalg.{ SparseVector => SV } 
import org.apache.spark.mllib.feature.HashingTF 

import org.apache.spark.mllib.feature.IDF 

val dim = math.pow(2, 18) .toInt 

val hashingTF = new HashingTF (dim) 


val tf = hashingTF.transform(tokens) 


tf.cache 
了 注意 我 们 使 用 别名 sv 引入 了 MLlib 的 SparseVector 包 。 因 为 之 后 我 们 将 使 
用 Breeze 的 1inalg 模 块 , 其 中 也 引用 了 SparseVector 包 , 这 样 可 以 避免 命名 空 
间 的 冲突 。 


HashingTF 的 transform 孙 数 把 每 个 输入 文档 ( 即 词 项 的 序列 ) 映 射 到 一 个 MLlib 的 Vector 
对 象 。 我 们 将 调用 cache 来 把 数据 保持 在 内 存 来 加 速 之 后 的 操作 。 


让 我 们 观察 一 下 转换 后 数据 的 第 一 个 元 素 : 


HashingTE 的 transform 函 数 返回 一 个 RDD[Vector] 的 引用 ， 因 此 我 们 可 
2 以 把 返回 的 结果 转换 成 MLlib 的 SparseVector 形 式 。 
ea transform 方 法 可 以 接收 Iterable 参 数 ( 例如 一 个 以 Seq[String] 形 式 出 
现 的 文档 ) 对 每 个 文档 进行 处 理 ， 最 后 返回 一 个 单独 的 结果 向 量 。 


val v = tf.first.asInstanceOf [SV] 
println(v.size) 
println(v.values.size) 
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println(v.values.take(10) .toSeq) 
println(v.indices.take(10) .toSeq) 


将 会 显示 下 面 的 输出 : 


262144 

706 

WrappedArray(1.0, 1.0, 1.0, 1.0, 2.0, 1.0, 1.0, 2.0, 1.0, 1.0) 
WrappedArray(313, 713, 871, 1202, 1203, 1209, 1795, 1862, 3115, 3166) 


我 们 可 以 看 到 每 一 个 词 频 的 稀 玻 向 量 的 维度 是 262 144 ( 正如 我 们 期 望 的 2*)。 然而 向 量 中 的 
非 0 项 仅仅 只 有 706 个 。 输 出 的 最 后 两 行 展示 了 向 量 中 前 几 列 的 下 标 和 词 频 值 。 


现在 通过 创建 新 的 IDF 实 例 并 调用 RDD 中 的 fit 方 法 ， 利 用 词 频 向 量 作为 输入 来 对 文库 中 的 
每 个 单词 计算 逆向 文本 频率 。 之 后 使 用 IDEF 的 transform 方 法 转换 词 频 向 量 为 TF-IDF 向 量 ; 


val idf = new IDF().fit(tf) 
val tfidf = idf.transform(tf) 

val v2 = tfidf.first.asInstanceOf [SV] 
println(v2.values.size) 
println(v2.values.take(10) .toSeq) 
println(v2.indices.take(10) .toSeq) 


检查 一 下 TF-IDF 向 量 的 第 一 个 元 素 ， 会 看 到 类 似 如 下 的 输出 : 


706 

WrappedArray(2.3869085659322193, 4.670445463955571, 
6.561295835827856, 4.597686109673142, 

WrappedArray(313, 713, 871, 1202, 1203, 1209, 1795, 1862, 3115, 3166) 


可 以 看 到 非 零 项 的 数量 改变 了 ( 现在 是 706 )， 词 向 量 的 下 标 也 变 了 。 之 前 向 量 表示 每 个 单词 
在 文档 中 出 现 的 频率 ， 而 现在 新 的 向 量 表示 IDEF 的 加 权 频 率 。 


8. 分 析 TF-IDF 权 重 


接 下 来 ,我 们 观察 几 个 单词 的 TF-IDF 权 值 ， 分 析 一 个 单词 的 常用 或 者 极 少 使 用 的 情况 会 对 
TF-IDF 值 产生 什么 样 的 影响 。 


首先 计算 整个 文档 的 TF-IDF 最 小 和 最 大 权 值 : 


val minMaxVals = tfidf.map { Vv => 
Val sv = Vv.asInstanceOf [SV] 
(sv.values.min, sv.values.max) 
} 
val globalMinMax = minMaxVals.reduce { case ((minl, maxl), 
(min2, max2)) => 
(math.min(minl, min2), math.max (maxl, max2)) 


} 


println(globalMinMax) 


正如 我 们 看 到 的 ， 最 小 的 TF-IDF 值 是 0， 最 大 的 是 一 个 非常 大 的 数 : 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


192 第 9 章 Spark 高 级 文本 处 理 技术 


(0.0,66155.39470409753) 


现在 我 们 来 观察 不 同 单词 的 TF-IDF 权 值 。 在 之 前 一 节 关 于 停 用 词 的 讨论 中 , 我 们 过 滤 掉 很 多 
高 频 常 用 词 。 记 得 我 们 并 没有 移 除 所 有 这 样 潜在 的 停 用 词 ， 而 是 在 文库 中 保留 了 一 些 ， 以 使 得 我 
们 可 以 看 到 使 用 TF-IDF 加 权 会 有 什么 影响 。 


对 之 前 计算 得 到 的 频率 最 高 的 几 个 词 的 TF-IDF 表 示 进 行 计 算 ， 可 以 看 到 TF-IDF 加 权 会 对 常 
用 词 赋予 较 低 的 权 值 : 

val common = sc.parallelize(Segq(Seq("you", "do", "we"))) 

val tfCommon = hashingTF.transform(common) 

val tfidfCommon = idf.transform(tfCommon) 


val commonVector = tfidfCommon.first.asInstanceOf [SV] 
println(commonVector.values.toSeq) 


如 果 形 成 了 这 个 文档 的 TF-IDF 向 量 表示 , 会 看 到 下 面 赋予 每 个 单词 的 值 。 注意 我 们 使 用 了 特 
征 哈 希 ,所 以 将 不 能 再 确定 这 些 值 分 别 表 达 的 是 哪个 向 量 。 但 是 ,这 些 值 说 明 赋 给 这 些 词 的 权重 
相对 较 低 : 


WrappedArray(0.9965359935704624, 1.3348773448236835, 
0.5457486182039175) 


现在 ,让 我 们 对 儿 个 不 常 出 现 的 单词 应 用 相同 的 转换 。 直 觉 上 , 我 们 认为 这 些 词 和 某 些 话题 
更 相关 : 


val uncommon = sc.parallelize(Seq(Segq("telescope", "legislation","investment"))) 
val tfUncommon = hashingTF.transform(uncommon) 

val tfidfUncommon = idf.transform(tfUncommon) 

val uncommonVector = tfidfUncommon.first.asInstanceOf [SV] 
printlin(uncommonVector.values.toSeq) 


从 下 面 的 结果 中 可 以 看 出 ， 这 些 词 的 TF-IDF 值 确实 远 远 高 于 那些 常用 词 : 


WrappedArray(5.3265513728351666, 5.308532867332488, 
5.483736956357579) 


9.3 ”使 用 TF-IDF 模型 


虽然 我 们 总 说 训练 一 个 TF-IDF 模 型 , 事实 上 我 们 做 的 是 特征 提取 或 者 转化 的 过 程 , 而 不 是 训 
练 机 器 学 习 模 型 。TF-IDF 加 权 经 常用 来 作为 降 维 、 分 类 和 回归 等 的 预 处 理 步 又 。 

为 了 展示 TF-IDF 的 潜在 用 途 ， 我 们 将 学 习 两 个 实例 。 第 一 个 实例 使 用 TF-IDF 向 量 来 计算 文 
本 相似 度 ， 而 第 二 个 使 用 TF-IDF 向 量 作 为 输入 训练 一 个 多 标签 分 类 模型 。 


9.3.1 20 Newsgroups 数 据 集 的 文本 相似 度 和 TF-IDF 特 征 
我 们 在 第 4 章 提 到 ， 可 以 通过 计算 两 个 向 量 的 距离 比较 两 个 向 量 的 相似 度 。 两 个 向 量 离 


Ee 
及 
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近 就 越 相似 。 其 中 有 一 个 用 来 计算 电影 相似 度 的 度量 是 余弦 相似 度 。 

正如 在 比较 电影 时 所 做 的 , 也 可 以 计算 两 个 文档 的 相似 度 。 我 们 已 经 通过 TF-IDF 把 文本 转换 
成 向 量 表示 。 因 此 可 以 使 用 和 比较 电影 向 量 相 同 的 技术 来 计算 两 个 文本 的 相似 度 。 

可 以 认为 两 个 文档 共有 的 单词 越 多 相似 度 越 高 , 反之 相似 度 越 低 。 因 为 我 们 通过 计算 两 个 向 
量 的 点 积 来 计算 余弦 相似 度 , 而 每 一 个 向 量 都 由 文档 中 的 单词 构成 , 所 以 共有 单词 更 多 的 文档 余 
弦 相 似 度 也 会 更 高 。 

现在 来 看 TF-IDF 如 何 发 挥 作用 ,我 们 有 理由 期 待 即使 非常 不 同 的 文档 也 可 能 包含 很 多 相同 的 
常用 词 (例如 停 用 词 )。 然 而 ， 因 为 较 低 的 TF-IDF 权 值 ， 这 些 单词 不 会 对 点 积 的 结果 产生 较 大 影 
响 ， 因 此 不 会 对 相似 度 的 计算 产生 太 大 影响 。 


例如 ， 我 们 预 估 两 个 从 曲棍球 新 闻 组 随机 选择 的 新 闻 比 较 相 似 。 然 后 看 一 下 是 不 是 这 样 : 


val hockeyText = rdd.filter { case (file, text) => 
file.contains ("hockey") } 

val hockeyTF = hockeyText .mapValues (doc => 
hashingTF.transform(tokenize(doc))) 

val hockeyTfIidf = idf.transform(hockeyTF.map(_._2)) 


上 面 的 代码 首先 过 滤 原 始 的 输入 RDD, 使 其 只 包含 来 自 曲 棍 球 话题 组 的 消息 。 然后 使 用 我 们 
的 分 词 和 词 频 转换 函数 。 注 意 使 用 的 transform 方 法 是 处 理 单个 文档 ( 形式 为 Seq[lstring] 的 ) 
的 版 本 ， 而 不 是 处 理 包含 所 有 文档 的 RDD 的 版 本 。 


最 后 ， 我 们 使 用 IDF 转 换 〈 使 用 之 前 已 经 基于 所 有 文本 库 计算 出 来 相同 的 IDF 值 )。 


有 了 曲棍球 文档 向 量 后 ， 就 可 以 随机 选择 其 中 两 个 向 量 ,并 计算 它们 的 余弦 相似 度 〈 正 如 之 
前 所 做 的 ， 我 们 会 使 用 Breeze 的 线性 代数 函数 ， 首 先 把 MLIib 向 量 转换 成 Breeze 稀 琉 向 量 ): 


import breeze.1inalg. 

val hockeyl = hockeyTfIdf.sample 

(true, 0.1, 42) .first.asInstanceOf [SV] 

val breezel = new SparseVector (hockeyl.indices, hockeyl.values, 
hockeyl .size) 

val hockey2 = hockeyTfIdf.sample 

(true, 0.1, 43).first.asInstanceOf [SV] 

val breeze2 = new SparseVector (hockey2 .indices，hockey2 .values， 
hockey2.size) 

val cosineSim = breezel.dot (breeze2) / (norm(breezel) * 
norm(breeze2)) 

println(cosineSim) 


计算 得 到 文档 余弦 相似 度 大 概 是 0.06: 


0.060250114361164626 


这 个 值 看 起 来 太 低 了 ， 但 文本 数据 中 大 量 唯一 的 单词 总 会 使 特征 的 有 效 维度 很 高 。 因 此 ， 
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我 们 可 以 认为 即使 两 个 谈论 相同 话题 的 文档 也 可 能 有 着 较 少 的 相同 单词 ， 因 而 会 有 较 低 的 相似 


作为 对 照 , 我 们 可 以 和 另 一 个 计算 结果 做 比较 ,其 中 一 个 文档 来 自 曲棍球 文档 ， 而 另 一 个 文 
档 随机 选择 自 comp.graphics 新 闻 组 ， 使 用 完全 相同 的 方法 : 


val graphicsText = rdd.filter { case (file, text) => 
file.contains ("comp.graphics") } 

val graphicsTF = graphicsText.mapValues (doc => 
hashingTF.transform(tokenize(doc))) 

val graphicsTfIdf = idf.transform(graphicsTF.mapl( 
val graphics = graphicsTfIdf.sample 

(true, 0.1, 42) .first.asIinstanceOf[SV] 

val breezeGraphics = new SparseVector(graphics.indices, 
graphics.values, graphics.size) 

val cosineSim2 = breezel.dot (breezeGraphics) / (norm(breezel) * 
norm(breezeGraphics)) 

println(cosineSim2) 


余弦 相似 度 非 常 低 ， 是 0.0047: 

0.004664850323792852 

最 后 , 相 比 一 篇 计算 机 话题 组 的 文档 , 一 篇 运动 相关 话题 组 的 文档 很 可 能 会 和 曲棍球 文档 有 
较 高 的 相似 度 。 但 我 们 希望 谈论 棒球 的 文档 不 应 该 和 谈论 曲棍球 的 文档 那么 相似 。 下 面 通过 计算 
从 棒球 新 闻 组 随机 得 到 的 消息 和 曲棍球 文档 的 相似 度 来 看 看 是 否 如 此 : 


2) ) 


val baseballText = rdd.filter { case (file, text) => 
file.contains ("baseball") } 

val baseballTF = baseballText .mapValues (doc => 
hashingTF.transform(tokenize(doc))) 

val baseballTfIdf = idf.transform(baseballTF.map(_._2)) 
val baseball = baseballTfIdf.sample 

(true, 0.1, 42) .first.asInstanceOf [SV] 

val breezeBaseball = new SparseVector(baseball.indices, 
baseball.values, baseball.size) 

val cosineSim3 = breezel.dot (breezeBaseball) / (norm(breezel) * 
norm(breezeBaseball)) 

printlin(cosineSim3) 


事实 上 ， 正 如 我 们 预料 的 ， 我 们 找到 的 棒球 和 曲棍球 文档 的 余弦 相似 度 是 0.05。 与 
comop.graphics 文 档 相 比 已 经 很 高 ， 但 是 和 另 一 篇 曲棍球 文档 相 比 则 较 低 : 


0.05047395039466008 


9.3.2 ”基于 20 Newsgroups 数 据 集 使 用 TF-IDF 训 练 文本 分 类 器 


当 使 用 TF-IDF 向 量 时 , 我 们 和 希望 基于 文档 中 共 现 的 词语 来 计算 余弦 相似 度 , 从 而 捕捉 文档 之 
间 的 相似 度 。 类 伏地 , 我们 可 能 也 希望 通过 使 用 机 顺 学 习 模型 ( 比如 一 个 分 类 模型 ) 学 习 每 个 单 
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词 的 权重 , 来 得 到 某 些 单词 出 现 ( 及 权重 ) 情况 到 特定 主题 的 映射 ; 可 以 用 来 区 分 不 同 主题 的 文 
档 。 也 就 是 说 ， 应 该 可 以 学 习 到 一 个 从 某 些 单词 是 否 出 现 〈 和 权重 ) 到 特定 主题 的 映射 关系 。 


在 20 Newsgroups 的 例子 中 ， 每 一 个 新 闻 组 的 主题 就 是 一 个 类 ， 我 们 能 使 用 TF-IDF 转 换 后 的 
向 量 作为 输入 训 丝 一 个 分 类 器 O 


因为 我 们 将 要 处 理 的 是 一 个 多 分 类 的 问题 ， 我 们 使 用 MLlib 中 的 朴素 贝 叶 斯 方法 ， 这 种 方法 
支持 多 分 类 。 第 一 步 ， 引 入 要 使 用 的 Spark 类 : 
import org.apache.spark.mllib.regression.LabeledPoint 


import org.apache.spark.mllib.classification.NaiveBayes 
import org.apache.spark.mllib.evaluation.MulticlassMetrics 


之 后 , 抽取 20 个 主题 并 把 它们 转换 到 类 的 映射 。 可 以 像 在 k 选 1 编码 中 那样 ,给 每 个 类 赋予 一 
个 数字 下 标 : 

val newsgroupsMap = 

newsgroups.distinct.collect() .zipWithIindex.toMap 

val zipped = newsgroups.zip (tfidf) 

val train = zipped.map { case (topic, vector) => 


LabeledPoint (newsgroupsMap (topic), vector) } 
train.cache 


在 上 面 的 代码 中 ， 从 新 闻 组 RDD 开 始 ， 其 中 每 个 元 素 是 一 个 话题 ， 使 用 zip 函 数 把 它 和 由 
TF-IDF 向 量 组 成 的 tftiaf RDD 组 合 。 人 然后 对 新 生成 的 zipped RDD 中 的 每 个 键 值 对 通过 映射 函数 
创建 一 个 LabeledPoint 对 象 ， 其 中 每 个 1abel 是 一 个 类 下 标 ， 特 征 就 是 TF-IDF 向 量 。 


注意 zip 算 子 假设 每 一 个 RDD 有 相同 数量 的 分 片 ,并且 每 个 对 应 分 片 有 相同 

>》 数量 的 记录 。 如 果 不 是 这 样 将 会 失败 。 这 里 我 们 可 以 这 么 假设 ， 是 因为 事实 上 

ea tfidf RDD 和 newsgroup RDD 都 是 我 们 对 相同 的 RDD 做 了 一 系列 的 map 操 作 后 
得 到 的 ， 都 保留 了 分 片 结构 。 


现在 我 们 有 了 格式 正确 的 输入 RDD， 可 以 简单 地 把 它 传 到 朴素 贝 叶 斯 的 train 方 法 中 : 
val model = NaiveBayes.train(train, lambda = 0.1) 


让 我 们 在 测试 数据 集 上 评估 一 下 模型 的 性 能 。 我 们 将 从 20news-bydate-test 文 件 夹 中 加 载 原 始 
的 测试 数据 ， 然 后 使 用 wholeTextFiles 把 每 一 条 信息 读 取 为 RDD 中 的 记录 。 使 用 和 得 到 
newsgroups RDD 相 同 的 方法 从 文件 路 径 中 提取 类 标签 : 


val testPath = "/PATH/20news-bydate-test/*" 

val testRDD = sc.wholeTextFiles (testPath) 

val testLabels = testRDD.map { case (file, text) => 
val topic = file.split("/").takeRight (2) .head 
newsgroupsMap (topic) 


} 
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使 用 和 训练 集 相同 的 方法 处 理 测试 数据 集中 的 文本 一 一 这 里 将 应 用 我 们 的 Lokenize 方 法 ， 
然后 使 用 词 频 转换 ， 之 后 再 次 使 用 完全 相同 的 从 训练 数据 中 计算 得 到 的 IDF， 把 TF 向 量 转换 为 
TF-IDF 向 量 。 最 后 ， 合 并 测试 类 标签 和 TF-IDF 向 量 , 创建 我 们 的 测试 RDD [LabeledPoint]: 


val testTf = testRDD.map { case (file, text) => 
hashingTF.transform(tokenize(text)) } 

val testTfIidf = idf.transform(testTf) 

val zippedTest = testLabels.zip(testTfIdf) 

val test = zippedTest.map { case (topic, vector) => 
LabeledPoint (topic, vector) } 


注意 ， 有 一 点 很 重要 ， 我 们 使 用 训练 集 的 IDF 来 转换 测试 集 ， 这 会 在 新 数据 

> 集 上 产生 更 加 真实 的 模型 估计 ， 因 为 新 的 数据 集 上 包含 训练 集 没有 训练 的 单词 。 

Q 如 果 基 于 测试 集 重新 计算 IDF 向 量 会 比较 “ 取 巧 ”， 且 更 重要 的 是 ， 有 可 能 对 通 
过 交叉 验证 产生 的 模型 最 优 参 数 做 出 非常 严重 的 错误 估计 。 


现在 我 们 准备 计算 预测 结果 和 我 们 模型 的 真实 类 标签 。 我 们 将 使 用 RDD 为 模型 来 计算 准确 度 
和 多 分 类 加 权 F- 指 标 : 


val predictionAndLabel = test.map(p => (model.predict (p.features), p.label)) 
val accuracy = 1.0 * predictionAndLabel.filter 

(XL OuUNG() / Cest: Countt(} 

val metrics = new MulticlassMetrics (predictionAndLabel) 

println(accuracy) 

println(metrics.weightedFMeasure) 


加 权 F- 指 标 是 一 个 综合 了 准确 率 和 召回 率 的 指标 ( 这 里 类 似 ROC 曲 线 下 面 的 
a 面积 ， 当 接近 1.0 时 有 较 好 的 表现 )， 并 通过 类 之 间 加 权 平 均 整 合 。 


可 以 看 到 ， 我 们 简单 的 多 分 类 朴素 贝 叶 斯 模型 在 准确 率 和 召回 率 上 均 接 近 80%: 


0.7915560276155071 
0.7810675969031116 


9.4 ”评估 文本 处 理 技术 的 作用 


文本 处 理 技 术 和 TF-IDF 加 权 是 特征 处 理 技术 的 实例 ,是 为 了 对 原始 文本 数据 降低 维度 和 提取 
某 些 结构 信息 ,比较 基于 这 些 原始 文本 数据 训练 得 到 的 模型 和 基于 经 过 处 理 及 TF-IDF 加 权 得 到 的 
数据 训练 出 来 的 模型 ， 可 以 看 到 应 用 这 些 处 理 技术 的 影响 。 
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在 20 Newsgroups 数 据 集 上 比较 原始 特征 和 人 处理 过 的 TF-IDF 特 征 


在 这 个 例子 中 , 我 们 在 用 空格 分 词 处 理 后 的 原始 文本 上 应 用 哈 希 单词 频率 转换 。 我 们 将 在 这 
些 文本 上 训练 模型 ， 并 模仿 我 们 对 使 用 TF-IDF 特 征 训练 的 模型 所 做 的 ， 评 佑 在 测试 集 上 的 表现 : 


Val rawTokens = rdd.map { case (file, text) => text.split(" ") } 
val rawTF = texrawTokenst.map(doc => hashingTF.transform(doc)) 
val rawTrain = newsgroups.zip(rawTF) .map { case (topic, vector) => 
LabeledPoint (newsgroupsMap (topic), vector) } 

val rawModel = NaiveBayes.train (rawTrain, lambda = 0.1) 

val rawTestTF = testRDD.map { case (file, text) => 
hashingTF.transform(text.split(" ")) } 

val rawZippedTest = testLabels.zip(rawTestTF) 

val rawTest = rawZippedTest.map { case (topic, vector) => 
LabeledPoint (topic, vector) } 

val rawPredictionAndLabel = rawTest.map(p => 

(rawModel .predict (p.features), p.label)) 


要 入 上 上 


XX。 


rawAccuracy = 1.0 * rawPredictionAndLabel.filter(x => xX. 
22) .GO0UnE.(.) 


/ rawTest.count() 


println(rawAccuracy) 
val rawMetrics = new MulticlassMetrics (rawPredictionAndLabel) 
println (rawMetrics.weightedFMeasure) 


结果 可 能 会 令 人 惊讶 ， 尽 管 准 确 率 和 F- 指 标 比 那些 TF-IDF 模 型 低 几 个 百分点 ， 原 始 的 模型 
表现 其 实 也 不 错 。 这 也 部 分 反映 了 一 个 事实 ， 即 朴素 贝 叶 斯 模型 能 很 好 地 适用 于 原始 词 频 格式 
的 数据 : 


0.7661975570897503 
0.7628947184990661 


9.5 Word2Vec 模型 

到 目前 为 止 ， 我 们 一 直 用 词 袋 向 量 模型 来 表示 文本 ， 并 选择 性 地 使 用 一 些 加 权 模 式 ， 比 如 
TF-IDF。 另 一 类 最 近 比 较 流 行 的 模型 是 把 每 一 个 单词 表示 成 一 个 向 量 。 

这 些 模型 一 般 是 基于 某 种 文本 中 与 单词 共 现 相关 的 统计 量 来 构造 。 一 旦 向 量 表示 算出 , 就 可 
以 像 使 用 TF-IDF 向 量 一 样 使 用 这 些 模 型 ( 例如 使 用 它们 作为 机 器 学 习 的 特征 )。 一 个 比较 通用 的 
例子 是 使 用 单词 的 向 量 表示 基于 单词 的 含义 计算 两 个 单词 的 相似 度 。 


Word2Vec 就 是 这 些 模 型 中 的 一 个 具体 实现 ， 常 称 作 分 布 向 量 表 示 。MLlib 模 型 使 用 一 种 
skip-gram 模 型 ， 这 是 一 种 考虑 了 单词 出 现 的 上 下 文 来 学 习 词 向 量 表示 的 模型 。 
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介绍 Word2Vec 的 细节 实现 超出 了 本 书 讨 论 的 范围 ，Spark 的 文档 可 以 在 下 面 
的 网 址 找到 : http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec， 


其 中 包含 了 更 多 的 算法 细节 ， 还 有 相关 实现 的 链接 。 


关于 Word2Vec 的 一 个 主要 的 学 术 论 文 是 Tomas Mikolov 、Kai Chen 、Greg 
Corrado 和 Jeffrey Dean 的 “Efficient Estimation Word Representations in Vector 
Space”, 2013 年 在 ICLR 的 工作 室 期 刊 上 发 表 。 这 篇 论文 可 以 在 http:/arxiv.org/pdf/ 


1301.3781.pdf 下 载 。 


另 一 个 近期 的 词 向 量 表示 的 模型 是 GloVe， 可 以 在 http:/www-nlp.stanford. 


edu/projects/glove/ 找 到 介绍 。 


基于 20 Newsgroups 数 据 集训 练 Word2Vec 


在 Spark 中 训练 一 个 Word2Vec 模 型 相对 简单 。 我 们 需要 传递 一 个 RDD， 


其 


~ 


一 个 单词 的 序列 。 可 以 使 用 我 们 之 前 得 到 的 分 词 后 的 文档 来 作为 模型 的 输入 : 


import org.apache.spark.mllib.feature.Word2Vec 


val word2vec = new Word2Vec() 
word2vec.setSeed (42) 


val word2vecModel = word2vec.fit (Lokens ) 


每 次 训练 都 会 得 到 相同 的 结果 。 


中 每 一 个 元 素 都 是 


| a 注意 我 们 使 用 set Seed 来 设置 一 个 随机 种 子 作为 模型 训练 的 参数 ,所 以 我 们 


训练 模型 后 ， 我 们 将 看 到 一 些 类 似 下 面 的 输出 : 


14/10/25 14:21:59 INFO Word2Vec: 
0.0011868763094487506 

14/10/25 14:21:59 INFO Word2Vec: 
0.0010640806039941193 

14/10/25 14:21:59 INFO Word2Vec: 
9.412848985394907E-4 

14/10/25 14:21:59 INFO Word2Vec: 
8.184891930848592E-4 

14/10/25 14:22:00 INFO Word2Vec: 
6.956934876302307E-4 

14/10/25 14:22:00 INFO Word2Vec: 
5.728977821755993E-4 

14/10/25 14:22:00 INFO Word2Vec: 
4.501020767209707E-4 

14/10/25 14:22:00 INFO Word2Vec: 
3.2730637126634213E-4 

14/10/25 14:22:01 INFO Word2Vec: 
2.0451066581171076E-4 
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2133172， 


2144172， 


2155172， 


2166172， 


2177172， 


2188172， 


2199172， 


2210172， 


2221172， 
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14/10/25 14:22:01 INFO Word2Vec: wordCount = 2232172, alpha = 
8.171496035708214E-5 


14/10/25 14:22:02 INFO SparkContext: Job finished: collect at 
Word2Vec.scala:368, took 56.585983 s 

14/10/25 14:22:02 INFO MappedRDD: Removing RDD 200 from persistence 
list 

14/10/25 14:22:02 INFO BlockManager: Removing RDD 200 

14/10/25 14:22:02 INFO BlockManager: Removing block rdd 200_0 
14/10/25 14:22:02 INFO MemoryStore: Block rdd 200 0 of size 9008840 
dropped from memory (free 1755596828) 

word2vecModel: org.apache.spark.mllib.feature.Word2VecModel = 
org.apache.spark.mllib.feature.Word2VecModel@2b94e480 


训练 完成 之 后 , 很 容易 找到 某 个 单词 的 前 20 个 相近 的 词汇 (也 就 是 通过 对 词 向 量 计算 余弦 相 
似 度 得 到 的 最 相似 的 单词 )。 例如， 使 用 下 面 的 代码 找到 和 hockey 最 相似 的 20 个 单词 : 


word2vecModel .findSynonyms ("hockey", 20).foreach (println) 
如 下 面 的 输出 所 示 ， 大 部 分 单词 都 和 hockey 或 其 他 一 些 运 动 主题 相关 : 


(sport,0.6828256249427795) 
(ecac,0.6718048453330994) 
(hispanic,0.6519884467124939) 
(glens,0.6447514891624451) 
(woofers,0.6351765394210815) 
(boxscores,0.6009076237678528) 
(tournament,0.6006366014480591) 
(champs,0.5957855582237244) 
(aargh,0.584071934223175) 
(playoff,0.5834275484085083) 
(ahl,0.5784651637077332) 
(ncaa,0.5680188536643982) 
(pool,0.5612311959266663) 
(olympic,0.5552600026130676) 
(champion,0.5549421310424805) 
(filinuk,0.5528956651687622) 
(yankees,0.5502706170082092) 
(motorcycles,0.5484763979911804) 
(calder,0.5481109023094177) 
(rec,0.5432182550430298) 


作为 另 一 个 例子 ， 我 们 为 legislation 找 到 如 下 20 个 近义词 : 


wordq2vecMode1 .findqSynonyms ("legislation", 20).foreach (println) 
在 这 个 例子 中 ， 我 们 发 现 这 些 单词 与 管 治 、 政 策 和 商业 特征 显著 相关 : 


(accommodates,0.8149217963218689) 
(briefed,0.7582570314407349) 
(amended,0.7310371994972229) 
(telephony,0.7139414548873901) 
(aclu,0.7080780863761902) 
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(pitted,0.7062571048736572) 
(licensee,0.6981208324432373) 
(agency,0.6880651712417603) 
(policies,0.6828961372375488) 
(senate,0.6821110844612122) 
(businesses,0.6814320087432861) 
(permit,0.6797110438346863) 
(cpsr,0.6764014959335327) 
(cooperation,0.6733141541481018) 
(surveillance,0.6670728325843811) 
(restricted,0.6666574478149414) 
(congress,0.6661365628242493) 
(procure,0.6655452251434326) 
(industry,0.6650314927101135) 
(inquiry,0.6644254922866821) 


9.6 小 结 


在 这 一 章 中 ,我 们 更 深入 地 了 解 了 复杂 的 文本 处 理 技术 ， 并 探索 了 MLIib 的 文本 特征 提取 能 
力 ， 特 别 是 TF-IDF 单 词 加 权 方 式 。 我 们 学 习 了 使 用 TF-IDF 特 征 的 结果 来 计算 文本 相似 度 并 训练 
新 闻 组 话题 分 类 模型 的 例子 。 最 后 ， 还 学 习 了 怎么 使 用 前 沿 的 Word2Vec 模 型 来 计算 一 个 文本 集 
中 单词 的 向 量 表示 ， 并 使 用 训练 好 的 模型 找到 和 给 定单 词 上 下 文 语义 相近 的 词 。 


在 下 一 章 中 ,我 们 将 了 解 在 线 学 习 ， 讨 论 如 何 使 用 Spark Streaming 来 训练 在 线 学 习 模型 。 


Ly 
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Spark Streaming 在 实时 机 器 
学 习 上 的 应 用 


本 书 到 目前 为 止 一 直 重点 讲 批量 数据 人 处理 。 也 就 是 我 们 所 有 的 分 析 、 特 征 提取 和 模型 训练 都 
被 应 用 于 一 组 固定 不 变 的 数据 。 这 很 好 地 适用 于 Spark 对 RDD 的 核心 抽象 ， 即 不 可 变 的 分 布 式 数 
据 集 。 尽 管 可 以 使 用 Spark 的 转换 函数 和 行动 算 子 从 原始 的 RDD 创 建新 RDD , 但 是 RDD 一 旦 创建 ， 
其 中 包含 的 数据 就 不 会 改变 。 


我 们 的 注意 力 一 直 集中 于 批量 机 器 学 习 模 型 , 训练 模型 的 固定 训练 集 通常 表示 为 一 个 特征 向 
量 (在 监督 学 习 模 型 的 例子 中 是 标签 ) 的 RDD。 
在 本 章 ， 我 们 将 : 


口 介绍 在 线 学 习 的 概念 ， 当 新 的 数据 出 现时 ， 模 型 被 训练 和 更 新 ; 
口 学 习 使 用 Spark Streaming 做 流 处 理 ; 
口 如 何 将 Spark Streaming 应 用 于 在 线 学 习 。 


10.1 在线 学 习 


本 书 使 用 的 批量 机 带 学 习 模 型 关注 处 理 已 经 存在 的 不 变 训练 集合 。 一 般 来 说 , 这 些 方法 也 是 
迭代 的 ， 即 在 训练 集 上 实施 多 轮 处 理 直 到 收敛 到 最 优 模 型 。 


相 比 于 离线 计算 , 在 线 学 习 是 以 对 训练 数据 通过 完全 增 量 的 形式 顺序 处 理 一 遍 为 基础 ( 就 是 
说 ， 一 次 只 训练 一 个 样 例 )， 当 处 理 完 每 一 个 训练 样本 ， 模 型 会 对 测试 样 例 做 预测 并 得 到 正确 的 
输出 ( 例如 得 到 分 类 的 标签 或 者 回归 的 真实 目标 ) 在 线 学 习 背 后 的 想法 就 是 模型 随 着 接收 到 新 
的 消息 不 断 更 新 自己 ， 而 不 是 像 离线 训练 一 次 次 重新 训练 。 


在 某 种 配置 下 ， 当 数据 量 很 大 的 时 候 ， 或 者 生成 数据 的 过 程 快 速 变化 的 时 候 , 在线 学 习 方法 
可 以 快速 接近 实时 地 响应 ， 而 不 需要 离线 学 习 中 昂贵 的 重新 训练 。 
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然而 ,在 线 学 习 方法 并 不 是 必须 以 完全 在 线 的 方式 使 用 。 事 实 上 ， 当 我 们 使 用 随机 梯度 下 降 
优化 方法 训练 分 类 和 回归 模型 时 , 已 经 学 习 了 在 离线 环境 下 使 用 在 线 学 习 模 型 的 例子 。 每 处 理 完 
一 个 样 例 ，SGD 更 新 一 次 模型 。 然 而 , 为 了 收敛 到 更 好 的 结果 ,我 们 仍然 对 整个 训练 集 处 理 了 多 
次 ,使 得 模型 收敛 到 更 好 的 结果 。 

在 完全 在 线 环境 下 ,我 们 不 会 (或 者 也 许 不 能 ) 对 整个 训练 集 做 多 次 训练 ,因此 当 输入 到 达 
时 我 们 需要 立刻 处 理 。 在 线 方法 还 包括 小 批量 离线 方法 ,并 不 是 每 次 处 理 一 个 输入 ,而 是 每 次 一 
个 小 批量 地 训练 数据 。 

在 线 和 离线 的 方法 在 真实 场景 中 也 可 以 组 合 使 用 。 例如 , 我们 可 以 不 断 ( 比方 说 每 天 ) 使 用 
批量 方法 离线 重新 训练 模型 。 然 后 在 生产 环境 下 应 用 模型 ,并 使 用 在 线 方法 实时 更 新 模型 ( 即 在 
这 一 天 之 中 , 在 两 次 离线 数据 训练 之 间 )。 


我 们 在 本 章 将 会 看 到 ， 在 线 学 习 环境 非常 适合 流 处 理 和 Spark Streaming 框 架 。 


| 更 多 关于 在 线 学 习 的 资料 : http:/en.wikipedia.ore/wiki/Online machine learning。 ] 


10.2 ” 流 处 理 


在 学 习 如 何 使 用 Spark 进 行 在 线 学 习 之 前 ， 我 们 首先 需要 了 解 流 处 理 的 基本 知识 并 介绍 Spark 
Streaming 库 。 


除了 Spark API 内 核 的 API 和 函数 ,Spark 项 目 还 包含 另 一 个 主要 的 子 项 目 ( 和 MLlib 一 样 ), 叫 
Spark Streaming， 主 要 负责 实时 处 理 数据 流 。 

数据 流 是 连续 的 顺序 记录 。 和 常见 的 例子 包括 从 网 页 和 移动 设备 获取 的 活动 流 数 据 、 时 间 戳 日 
志文 件 、 交 易 数 据 ， 甚 至 传感器 或 者 设备 网 络 传人 的 事件 流 。 

批量 处 理 的 方法 一 般 包 括 保存 数据 流 到 一 个 临时 的 存储 系统 ( 如 HDFS 或 数据 库 ) 和 在 存储 
的 数据 上 运行 批量 处 理 。 为 了 生成 最 新 的 结果 , 批量 处 理 必须 在 最 新 的 可 用 数据 上 周期 性 地 运行 
(每 天 、 每 小 时 ， 其 至 几 分 钟 一 次 )。 

相反 , 流 处 理 方法 是 当 数 据 产 生 时 就 开始 处 理 ， 接 近 实 时 ( 从 不 足 一 秒 到 十 几 分 之 一 秒 ， 而 
非 批 处 理 的 以 分 钟 、 小 时 、 天 ， 其 至 周 计 )。 


10.2.1 Spark Streaming 介 绍 
处 理 流 计算 有 几 种 通用 的 技术 ， 其 中 最 常见 的 两 种 如 下 : 
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口 单独 处 理 每 条 记录 ， 并 在 记录 出 现时 立刻 处 理 ; 
口 把 多 个 记录 组 合 为 小 批量 任务 ， 可 以 通过 记录 数量 或 者 时 间 长 度 切 分 出 来 。 

Spark Streaming 使 用 第 二 种 方法 ， 其 核心 概念 是 离散 化 流 ， 或 DStream ( Discretized Stream )。 
一 个 DStream 是 指 一 个 小 批量 作业 的 序列 ， 每 一 个 小 批量 作业 表示 为 一 个 Spark RDD ， 如 图 10-1 
所 示 : 


离散 化 流 


批量 间隔 


图 10-1 ”离散 化 流 的 抽象 表示 

离散 化 流 是 通过 输入 数据 源 和 叫 作 批量 处 理 间隔 的 时 间 窗 口 来 定义 的 。 数据 流 被 分 成 和 批 处 
理 间隔 相等 的 时 间 段 (从 应 用 开始 执行 开始 )。 流 中 每 一 个 RDD 将 包含 从 Spark Streaming 应 用 程序 
接收 到 的 一 个 批 处 理 时 间 段 内 的 记录 。 如 果 在 所 给 时 间 段 内 没有 数据 产生 , 将 得 到 一 个 空 的 RDD。 

1. 输入 源 

Spark Streaming 接 收 端 负责 从 数据 源 接收 数据 并 转换 成 由 Spark RDD 组 成 的 DStream。 


Spark Streaming 支 持 多 种 输入 源 ， 包 括 基 于 文件 的 源 ( 接收 端 在 输入 位 置 等 待 新 文件 ， 然 后 
从 新 文件 中 读 取 内 容 并 创建 DStream ) 和 基于 网 络 的 输入 源 ( 数据 来 自 Twitter API 流 、Akka actors 
或 消息 队列 等 基于 网 络 套 接 字 的 数据 源 ， 或 者 Flume 、Kafka 、Amazon Kinesis 等 分 布 式 流 及 日 志 
传输 框架 )。 


apache.org/docs/latest/streaming-programming-guide.html#input-dstreams。 


| 入 关于 更 多 输入 源 的 细节 和 各 种 更 高 级 输入 源 ， 请 参考 这 里 : http://spark. 


2. 转换 

正如 我 们 在 第 1 章 和 其 他 章 看 到 的 ，Spark 文 持 对 RDD 进 行 各 种 转换 。 因 为 DStream 是 由 RDD 
组 成 的 ，Spark Streaming 提 供 了 一 个 可 以 在 DStream 上 使 用 的 转换 集合 ; 这 些 转 换 集合 和 RDD 上 
可 用 的 转换 类 似 。 包 插 map、flatMap、join 和 reduceByKey。 


与 针对 RDD 的 转换 类 似 ，Spark Streaming 的 转换 操作 DStream 包 含 的 数据 。 就 是 说 ， 这 些 转 
换 应 用 于 DStream 的 每 个 RDD， 进 而 应 用 于 RDD 的 每 个 元 素 上 。 
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Spark Streaming 还 提供 了 reduce 和 count 这 样 的 算 子 ,它们 返回 由 一 个 元 素 ( 如 每 批 的 数目 ) 
组 成 的 DStream 对 象 。 并 不 像 RDD 上 的 操作 ， 这 些 算 子 不 会 直接 触发 DStream 计 算 。 也 就 是 说 ， 
它们 不 是 动作 ， 但 仍然 是 转换 ， 因 为 会 返回 男 一 个 DStream。 


(1) 跟踪 状态 


处 理 RDD 的 批量 计算 时 , 维护 和 更 新 一 个 状态 变量 比较 直观 。 可 以 从 某 个 状态 ( 如 值 的 数目 
或 和 ) 开 始 , 然后 使 用 广播 变量 或 者 累 增 变 量 来 并 行 更 新 这 个 状态 ,一 般 来 说 ,我们 可 以 使 用 RDD 
的 算 子 来 收集 并 更 新 驱动 端的 状态 ， 然 后 更 新 全 局 状态 。 


使 用 DStream 时 这 样 的 操作 会 有 点 复杂 ， 因 为 需要 在 容错 的 前 提 下 跟踪 批量 数据 的 状态 。 
Spark Streaming 提 供 了 updatestateByKey 哺 数 用 于 处 理 DStream 中 的 键 值 对 ， 比 较 方便 地 为 我 
们 解决 了 这 种 问题 。 这 个 方法 帮助 我 们 创建 某 种 状态 信息 组 成 的 流 , 并 在 每 次 遇 到 批量 任务 时 更 
新 它 。 这 里 的 状态 可 以 是 每 一 个 网 页 被 访问 的 次 数 ， 每 一 个 广告 被 点 击 的 次 数 ， 每 一 个 用 户 发 表 
的 推 文 的 数量 ， 或 者 每 个 产品 被 购买 的 次 数 。 

(2) 普通 转换 

Spark Streaming 的 API 也 提供 了 一 般 转换 函数 来 方便 用 户 访 问 流 中 每 个 RDD 含 有 的 批量 数 


据 。 如 更 高 层 的 map 将 一 个 DStream 转 换 为 男 一 个 DStream。 我 们 可 以 使 用 RDD 的 join 算 子 联合 流 中 
的 每 一 批 数据 和 已 经 存在 的 不 是 我 们 的 streaming 应 用 ( 可 能 是 Spark 或 者 其 他 系统 ) 生成 的 RDD。 


apache.org/docs/latest/streaming-programming-guide.html#transformations-on-dstreams。 


| 完整 的 转换 函数 列表 和 这 些 函 数 的 更 多 的 信息 请 参考 这 个 文档 : http://spark. 


3. 执行 算 子 
Spark Streaming 在 遇 到 count 这 样 的 算 子 时 , 不 会 做 批量 RDD 中 的 执行 操作 。Spark Streaming 


自己 有 一 套 在 DStream 之 上 执行 算 子 的 概念 。 执行 算 子 是 输出 算 子 , 调用 时 会 触发 DStream 之 上 的 
计算 。 比 如 下 面 几 个 。 


D print: 输出 每 批量 处 理 的 前 10 个 元 素 到 控制 台 ， 一 般 用 来 做 调试 和 测试 。 

口 saveAsObjectFile、saveAsTextFiles 和 和 saveAsHadoopFiles: 这 几 个 函数 把 每 一 
批 数 据 输 出 到 Hadoop 的 文件 系统 中 ， 用 批量 数据 的 开始 时 间 戳 来 命名 。 

口 forEBachRDD: 这 个 算 子 是 最 常用 的 ， 人 允许 用 户 对 DStream 的 每 一 个 批量 数据 对 应 的 RDD 
本 身 做 任意 操作 。 经 常用 来 产生 附加 效果 ， 比 如 保存 数据 到 外 部 系统 、 打 印 测试 、 导 出 
到 图 表 等 。 
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注意 就 像 使 用 Spark 批 量 处 理 一 样 ，DStream 算 子 是 懒惰 的 。 我 们 同样 需要 调 

>» 用 执行 算 子 , 像 在 RDD 上 调用 count 以 保证 处 理 开 始 , 我 们 需要 调用 上 面 算 子 的 

QQ 中 的 一 个 来 触发 DStream 上 的 计算 。 另 外 ， 我 们 的 流 式 应 用 并 不 会 真 的 执行 任何 
计算 。 


4. 窗口 算 子 


因为 Spark Streaming 基 于 时 间 顺 序 批量 处 理 数据 流 , 所 以 引入 了 一 个 新 的 概念 , 叫 作 时 间 窗 。 
时 间 窗 函数 计算 在 流 上 的 滑动 窗口 中 的 数据 转换 。 

窗口 由 窗口 长 度 和 和 滑动 间隔 定义 。 例如 ，10 秒 的 窗口 和 5 秒 的 滑动 间隔 可 以 定义 一 个 窗口 ， 
它 每 5 秒 计算 一 次 前 10 秒 接收 的 DStream 数 据 。 例 如 ， 可 以 计算 前 10 秒 中 按 PV 计算 的 网 站 排名 ， 
使 用 滑动 窗口 每 5 秒 重 算 一 次 。 


图 10-2 展 示 了 这 种 窗口 DStream: 


离散 化 流 
/ 
| mn | 四 四 四 四 
村 | 
请 动 间隔 
he | 
窗口 长 度 
、、 pS 


图 10-2 ”滑动 窗口 DStream 


10.2.2 ”使 用 Spark Streaming 缓 存 和 容错 


和 Spark 的 RDD 一 样 ，DStream 也 可 以 被 缓存 在 内 存 里 。 缓 存 的 使 用 场景 也 和 RDD 类 似 ， 如 
果 需 要 多 次 访问 DStream 中 的 数据 ( 执行 多 次 不 同 的 分 析 和 聚合 或 者 输出 到 多 个 外 部 系统 )， 绥 
存 会 带 来 很 大 好 处 。 状 态 相 关 的 算 子 , 包括 winaqow 函 数 和 updatestateByKey， 为 提高 效率 都 
会 缓存 。 

之 前 讲 过 RDD 是 不 可 变 的 数据 集合 ,并 由 输入 数据 源 和 类 群 (lineage ) 定义 。 所 谓 类 群 ， 就 
是 应 用 到 RDD 上 的 转换 算 子 和 执行 算 子 的 集合 。RDD 中 的 容错 ， 就 是 重建 因为 节点 失败 导致 数 
据 丢 失 的 RDD (或 RDD 的 分 片 )。 
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因为 DStream 本 身 是 处 理 批量 的 RDD ， 可 以 被 重 算 以 应 对 阶段 节点 的 情况 。 然 而 ， 这 依赖 于 
输入 数据 依然 可 用 。 如 果 数 据 源 本 身 是 容错 的 并 且 持 久 化 的 (HDFS 或 者 一 些 其 他 的 容错 数据 源 ) 
那么 DStream 就 可 以 重 算 。 

如 果 数 据 流 的 源头 来 自 于 网 络 〈 对 流 处 理 很 常见 )，Spark Streaming 的 默认 持久 化 方式 就 是 
复制 数据 到 两 个 节点 。 这 就 保证 了 网 络 DStreams 可 以 在 失败 的 情况 下 重 算 。 然 而 需要 注意 ,任何 
节点 接收 到 但 是 还 没有 复制 的 数据 都 可 能 在 节点 失败 的 时 候 丢 失 。 


Spark Streaming 也 支持 失败 时 从 驱动 节点 恢复 。 但 是 在 处 理 网 络 流入 数据 时 ， 工 作 节 点 内 存 
中 的 数据 还 是 会 丢失 。 因 此 ，Spark Streaming 在 驱动 节点 或 者 程序 失败 时 并 不 能 支持 完全 容错 。 


更 多 细节 请 参看 http://spark.apache.org/docs/latest/streaming-programming-guide. 
html#caching-persistence 和 http://spark.apache.org/docs/latest/streaming-programming- 
guide.html#fault-tolerance-properties。 


10.3 创建 Spark Streaming 应 用 


我 们 将 通过 创建 第 一 个 Spark Streaming 应 用 来 演示 之 前 介绍 的 Spark Streaming 相 关 的 基本 概念 


接 下 来 我 们 扩展 第 1 章 的 样 例 程 序 。 当 时 我 们 使 用 了 一 个 简单 的 产品 购买 活动 的 样 例 数据 集 。 
在 这 个 例子 中 , 我 们 将 创建 一 个 简单 的 应 用 来 随机 产生 活动 并 通过 网 络 发 送 。 然 后 ,将 创建 几 个 
Spark Streaming 消 费 者 应 用 来 处 理 这 个 事件 流 。 

本 章 的 项 目 文件 里 包含 所 需 的 代码 。 项 目 名 字 叫 scala-spark-streaming-app ， 包 含 一 个 Scala 
SBT 项 目 定 义 文件 、 样 例 程序 代码 和 \src\main\resources 目 录 下 Mnames.csv 的 资源 文件 。 


build.sbt 文 件 包含 以 下 项 目 定 义 : 


de 


name := "scala-spark-streaming-app" 
VERSTOR. Se VT 
scalaVersion := "2.10.4" 


libraryDependencies += "org.apache.spark" %% "spark-mllib" 
0 


libraryDependencies += "org.apache.spark" %% "spark-streaming" 
ce 


注意 我 们 加 了 对 Spark MLlib 和 Spark Streaming 的 依赖 ， 其 中 已 经 包含 了 对 Spark 内 核 的 依赖 。 
names.csy 文 件 含有 20 个 随机 产生 的 用 户 名 。 我 们 将 使 用 这 些 名 字 作 为 消息 产生 应 用 的 数据 生 
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成 函数 的 一 部 分 : 


Miguel,Eric,James,Juan, Shawn, James,Doug,Gary,Frank,Janet,Michael, 
James,Malinda,Mike,Elaine,Kevin,Janet,Richard,Saul,Manuela 


10.3.1 消息 生成 端 


消息 发 送 端 需要 创建 一 个 网 络 连接 , 并 随机 生成 购买 活动 数据 并 通过 这 个 连接 发 送出 去 。 首 
先 , 我 们 会 定义 对 象 和 主 函数 。 然 后 从 names.csv 源 读 人 随机 姓名 并 创建 一 个 产品 价格 集合 , 生成 
随机 产品 活动 : 
a 大火 
* 随机 生成 “产品 活动 ”的 消息 生成 端 
* 每 秒 最 多 5 个 ， 然 后 通过 网 络 连接 发 送 


六 这 
object StreamingProducer { 


def main(args: Array[lString]) { 
val random = new Random() 


// 每 秒 最 大 活动 数 
val MaxEvents = 6 


// 读 取 可 能 的 名 称 
val namesResource = 
this.getClass.getResourceAsStream("/names.csv") 
val names = scala.io.Source.fromIinputStream(namesResource) 
.getLines () 
.toList 
.head 
DLEE( 
.toSeq 


// 生成 一 系列 可 能 的 产品 

val products = Seql( 
"iPhone Cover" -> 9.99, 
"Headphones" -> 5.49， 
"Samsung Galaxy Cover" -> 8.95, 
"iPad Cover" -> 7.49 

) 


通过 使 用 名 字 序 列 并 映射 到 产品 名 和 价格 , 我 们 将 创建 一 个 函数 从 这 些 数 据 中 随机 选择 产品 
和 名 称 ， 生 成 确定 数量 的 购买 活动 : 


/** 生成 随机 产品 活动 */ 


def generateProductEvents(n: Int) = { 
(1 to n).map { i => 
val (product, price) = 
products (random.nextInt (products.size)) | 
val user = random.shuffle (names) .head 
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(user, product, price,) 
} 
最 后 ,创建 一 个 网 络 套 接 字 并 设置 消息 生成 器 来 监听 这 个 套 接 字 。 一 旦 连接 成 功 ( 从 我 们 的 
消费 者 流 应 用 )， 生 成 器 将 会 以 0 到 5 秒 随 机 的 频率 来 生成 随机 的 事件 : 
// 创建 网 络 生成 器 


val listener = new ServerSocket (9999 ) 
println("Listening on port: 9999") 


while (true) { 
val socket = listener.accept() 
new Thread() { 
override def run = { 
println("Got client connected from: " + 
socket .getInetAddress) 
val out = new PrintWriter(socket.getOutputSstream(), 
true) 


while (true) { 
Thread.sleep(1000) 
val num = random.nextInt (MaxEvents) 
val productEvents = generateProductEvents (num) 
productEvents.foreach{ event => 
out .write(event.productIterator.mkString(",") 
out .write("\n") 
} 
out.flush() 
printlin(s"Created Snum events...") 
} 
socket .close() 
} 
}.start() 


} 


CA 这 个 消 息 生成 器 的 例子 是 基于 Spark Streaming 中 PageViewGenerator 的 例 
子 写 的 。 


正如 第 1 章 提 到 的 , 通过 切换 根 目 录 到 scala-spark-streaming-app, 并 且 使 用 SBT 来 运行 这 个 应 用 : 


>cd scala-spark-streaming-app 
>sbt 

[info] 

> 


使 用 run 命 令 执行 这 个 应 用 : 


>run 


van 
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应 该 能 看 到 类 似 下 面 的 输出 : 


Multiple main classes detected, select one to run: 


[1] StreamingProducer 

[2] SimpleStreamingApp 

[3] StreamingAnalyticsApp 
[4] StreamingStateApP 

[5] StreamingModelProducer 
[6] SimpleStreamingModel 

[7] MonitoringSstreamingModel 


Enter number: 


选择 StreamingProducer 选 项 。 程 序 将 开始 运行 ， 可 以 看 到 下 面 的 输出 : 


[info] Running StreamingProducer 
Listening on port: 9999 


可 以 看 到 生成 器 正在 监听 9999 端 口 ， 等 待 我 们 的 消费 者 程序 连接 。 


10.3.2 ”创建 简单 的 流 处 理 程序 


下 面 创 建 第 一 个 流 处 理 程序 。 我们 将 简单 地 连接 生成 器 并 打印 出 每 一 个 批 次 的 内 容 。 流 处 理 
代码 如 下 : 


/** 
* 用 Scala 写 的 一 个 简单 的 Spark Streaming 应 用 
4 

object SimpleStreamingApp { 


def main(args: Array[String]) { 


Val ssc = new StreamingContext ("local[l2]", 
"First Streaming App", Seconds (10) ) 
val stream = ssc.socketTextStream("localhost", 9999) 


// 简单 地 打印 每 一 批 的 前 几 个 元 素 
// 批量 运行 

stream.print () 

ssc.start () 
ssc.awaitTermination () 


} 
} 
看 上 去 很 简单 ， 这 主要 是 因为 Spark Streaming 已 经 帮 有 我 们 处 理 了 复杂 的 过 程 。 首 先 初 始 化 一 
企 StreamingContext 对 象 (= 2 人 和 SparkContext 类 似 的 流 处 理 对 象 ) 5 设 定 和 之 前 
sparkContext 相 似 的 配置 项 。 注 意 我 们 需要 提供 批量 处 理 的 时 间 间 隔 ， 这 里 设 为 10 秒 。 


图 灵 社 区 会 员 cindy282694(hy314@qq.com) 专 享 尊重 版 权 


210 第 10 章 Spark Streaming 在 实时 机 器 学 习 上 的 应 用 


然后 使 用 定义 好 的 流 数据 源 socketTextStream 创 建 一 个 数据 流 ， 从 套 接 字 服务 顺 读 取 文 本 
并 创建 一 个 Dstream[String] 对 象 。 然 后 在 DStream 上 调用 print 国 数 ， 打 印 出 每 批 数 据 的 前 几 


个 元 素 


在 DStream 上 调用 print 类 似 于 在 RDD 上 调用 take， 只 输出 前 几 个 元 素 。 


可 以 通过 SBT 运 行程 序 。 打 开 第 二 个 终端 窗口 ， 让 生成 器 程序 运行 ， 然 后 运行 sbt: 


然后 我 们 应 该 看 到 几 个 可 以 选择 的 选项 : 


Multiple main classes detected, select one to run: 


[1] StreamingProducer 

[2] SimpleStreamingApp 

[3] StreamingAnalyticsApp 
[4] StreamingStateApp 

[5] StreamingModelProducer 
[6] SimpleStreamingModel 

[7] MonitoringstreamingModel 


运行 SimpleStreamingApp 的 主 类 。 你 应 该 看 到 流 计算 程序 开始 运行 ， 打 印 出 了 类 似 下 面 
的 结果 : 


14/11/15 21:02:23 INFO scheduler.ReceiverTracker: ReceiverTracker 


started 

14/11/15 21:02:23 INFO dstream.ForEachDStream: metadataCleanupDelay = 
-1 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: 
metadataCleanupDelay = -1 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: Slide time = 10000 
ms 


14/11/15 21:02:23 INFO dstream.SocketInputDStream: Storage level = 
StorageLevel (false, false, false, false, 1) 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: Checkpoint 
interval = null 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: Remember duration 
= 10000 ms 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: Initialized and 
validated org.apache.spark.streaming.dstream.SocketInputDStream@ff3436d 
14/11/15 21:02:23 INFO dstream.ForEachDStream: Slide time = 10000 ms 
14/11/15 21:02:23 INFO dstream.ForEachDStream: Storage level = 
StorageLevel (false, false, false, false, 1) 

14/11/15 21:02:23 INFO dstream.ForEachDStream: Checkpoint interval = 
null 
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14/11/15 21:02:23 INFO dstream.ForEachDStream: Remember duration = 
10000 ms 

14/11/15 21:02:23 INFO dstream.ForEachDStream: Initialized and 
validated org.apache.spark.streaming.dstream.ForEachDStream@5al0b6e8 
14/11/15 21:02:23 INFO scheduler.ReceiverTracker: Starting 1 
receivers 

14/11/15 21:02:23 INFO spark.SparkContext: Starting job: runJob at 
ReceiverTracker.scala:275 


与 此 同时 ， 应 该 看 到 运行 生成 带 的 终端 窗口 显示 下 面 的 内 容 : 


Got client connected from: /127.0.0.1 
Created 2 events... 
Created 2 events... 
Created 3 events... 
Created 1 events... 
Created 5 events... 


10 秒 钟 之 后 ， 这 也 是 我 们 批量 处 理 流 数 据 的 时 间 间 隔 ，Spark Streaming 将 在 流 上 触发 一 次 计 
算 ， 因 为 我 们 使 用 了 print 算 子 。 这 将 会 展示 出 这 批 数据 的 前 几 个 活动 ， 输 出 如 下 : 


14/11/15 21:02:30 INFO spark.SparkContext: Job finished: take at 
DStream.scala:608, took 0.05596 s 


Time: 1416078150000 ms 
Michael,Headphones,5.49 
Frank,Samsung Galaxy Cover,8.95 
Eric,Headphones,5.49 
Malinda,iPad Cover,7.49 
James,iPphone Cover,9.99 
James,Headphones,5.49 
Doug,iPhone Cover,9.99 
Juan,Headphones,5.49 
James,iPphone Cover,9.99 
Richard,iPad Cover,7.49 


< 
| Q 可 能 会 看 到 不 同 的 结果 ， 因 为 生成 器 每 秒 钟 生成 活动 的 数量 是 随机 的 。 


可 以 按 Ctrl+C 结 束 流 计 算 程 序 的 运行 。 如 果 愿 意 ， 也 可 以 结束 消息 生成 器 〈 结 束 之 后 ， 需 要 
在 启动 下 一 个 流 计 算 程序 之 前 再 次 重启 )。 


10.3.3” 流 式 分 析 
下 面 ， 我 们 创建 一 个 复杂 点 的 流 计算 程序 。 我 们 在 第 1 童 已 经 对 产品 购买 数据 集 计算 了 几 个 
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统计 量 。 包 括 总 购买 量 、 唯 一 用 户 数 、 总 收入 和 最 畅销 的 产品 〈 及 其 购买 总 数 和 总 收入 )。 


在 这 个 例子 中 , 我 们 将 在 购买 活动 流 之 上 计算 相同 的 指标 。 关 键 的 不 同 在 于 这 些 统计 值 会 按 
照 每 个 批 次 计算 并 输出 。 


我 们 像 下 面 这 样 编写 流 计 算 程 序 : 


/** 
* 梢 复杂 的 Streaming App 应 用 ,计算 DStream 中 每 一 批 的 指标 并 打印 结果 
bh 


object StreamingAnalyticsApp { 


def main(args: Array[String]) { 
val ssc = new StreamingContext ("local[2]", 
"First Streaming App", Seconds(10)) 
val stream = ssc.socketTextStream("localhost", 9999) 


// 基于 原始 文本 元 素 生 成 活动 流 

val events = stream.map { record => 
val event = record.split(",") 
(event (0), event (1), event (2)) 


} 


首先 ， 我 们 创建 了 和 之 前 完全 相同 的 streamingContext 和 套 接 字 流 。 接 下 来 在 原始 文本 上 
应 用 map 转 换 子 数 ， 文 本 中 的 每 一 条 记录 都 是 一 个 皖 号 分 隔 的 购买 活动 。map 函 数 分 隔 文 本 并 创 
建 一 个 “(用 户 ， 产品, 价格)” 元 组 。 这 里 演示 了 如 何在 DStream 上 使 用 map， 和 我 们 在 RDD 上 的 
操作 相同 。 


之 后 , 使 用 foreachRDD 函 数 来 对 流 上 的 每 个 RDD 应 用 任意 处 理 函 数 ， 计 算 我 们 需要 的 指标 
并 打印 结果 到 控制 台 : 
/* 


计算 并 输出 每 一 个 批 次 的 状态 。 因 为 每 个 批 次 都 会 生成 RDD， 所 以 在 DStream 上 调用 
forEachRDD， 应 用 第 1 章 使 用 过 的 普通 的 RDD 函 数 


党 从 
events.foreachRDD { (rdd, time) => 
val numPurchases = rdd.count() 
val uniqueUsers = rdd.map { case (user, _, _) => user 
}.distinct() .count () 
val totalRevenue = rdd.map { case (_, _, price) => 


price.toDouble }.sum() 
val productsByPopularity = rdd 
.map { case (user, product, price) => (product, 1) } 
.reduceByKey(_ + _) 
.Collect () 
.SortBy (-_._2) 
val mostPopular = productsByPopularity(0) 


val formatter = new SimpleDateFormat 


val dateStr = formatter.format (new Date(time.milliseconds)) 
println(s"== Batch start time: S$dateStr ==") 
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println("Total purchases: " + numPurchases ) 
println("Unique users: " + UniqueUsers) 
println("Total revenue: " + totalRevenue) 


println("Most popular product: %s with %d 
purchases".format (mostPopular._1, mostPopular._2)) 


} 


// 开始 执行 Spark 上 下 文 
ssc.start () 
ssc.awaitTermination () 


} 


这 里 foreachRDD 中 RDD 上 的 操作 算 子 和 第 1 童 使 用 的 完全 是 相同 的 代码 。 这 说 明了 可 以 通 
过 操作 其 中 的 RDD 在 流 计算 中 应 用 任何 RDD 相 关 的 处 理 ， 包 括 内 置 的 高 级 流 计算 操作 。 


调用 sbt run 再 次 运行 流 计算 程序 并 选择 streamingAnalyticsApp。 


| » 如 果 你 之 前 终止 了 程序 ,需要 重启 消息 产生 器 。 这 应 该 在 启动 流 计算 程序 之 


大 约 10 秒 钟 后 ， 应 该 能 看 到 如 下 输出 : 


14/11/15 21:27:30 INFO spark.SparkContext: Job finished: collect at 
Streaming.scala:125, took 0.071145 s 

== Batch start time: 2014/11/15 9:27 PM == 

Total purchases: 16 

Unique users: 10 

Total revenue: 123.72 

Most popular product: iPad Cover with 6 purchases 


可 以 使 用 CtrltC 再 次 终止 流 计算 程序 。 


10.3.4 ”有 状态 的 流 计算 


作为 最 后 的 例子 ， 我 们 将 使 用 updatesStateByKey 函 数 基 于 状态 流 计算 营 收 和 每 个 用 户 购 
买 量 这 个 全 局 状态 ， 而 且 会 使 用 每 10 秒 的 批量 数据 更 新 一 次 。 我 们 的 StreamingstateApp 程 
序 如 下 : 


object StreamingStateApp { 
import org.apache.spark.streaming.StreamingContext._ 


首先 定义 一 个 upaatestate 函 数 来 基于 运行 状态 值 和 新 的 当前 批 次 数据 计算 新 状态 。 状 态 10 
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在 这 种 情况 下 是 一 个 “(产品 数量 ， 营 收 )” 元 组 ， 针 对 每 个 用 户 。 给 定 当前 时 刻 的 当前 批 次 和 累 
积 状态 的 “(产品 ， 收 入 )” 对 的 集合 ， 计 算得 到 新 的 状态 。 


把 当前 状态 的 值 处 理 为 option， 因 为 它 可 能 是 空 的 (第 一 批 数 据 ), 并 且 需 要 定义 一 个 默认 
值 ， 通 过 下 面 的 getorElse 来 实现 : 


def updateState (prices: Segq[l (String, Double)], currentTotal: 
Option[(Int, Double)]) = { 
val currentRevenue = prices.map(_._2).sum 


val currentNumberPpurchases = prices.size 

val state = currentTotal.getOrElse((0, 0.0)) 

Some ( (currentNumberPurchases + state._1, currentRevenue + 
state._2)) 


def main(args: Array[String]) { 


val ssc = new StreamingContext ("local[2]", "First Streaming 
App", Seconds(10)) 

// 对 有 状态 的 操作 ， 需 要 设置 一 个 检查 点 

ssc.checkpoint ("/tmp/sparkstreaming/") 

val stream = ssc.socketTextStream("localhost", 9999) 


// 基于 原始 文本 元 素 生成 活动 流 
val events = stream.map { record => 
val event = record.split(",") 
(event (0), event (1), event (2) .toDouble) 
} 
val users = events.map{ case (user, product, price) => (user, 
(product, price)) } 


val revenuePerUser = users.updateStateByKey (updateState) 
revenuePerUser.print () 


// 启动 上 下 文 
ssc.start() 
ssc.awaitTermination() 


} 


在 使 用 和 之 前 例子 中 相同 的 字符 串 切 分 转换 后 ， 我 们 在 Dstream 上 调用 了 updatestate 
ByKey， 传 人 updqateSstate 国 数 。 然 后 把 结果 打印 到 控制 台 。 


使 用 sbt run 并 选择 [4]SstreamingStateaApp 来 启动 流 计 算 的 例子 (如果 有 必要 ， 也 重启 
消息 生成 器 程序 )。 


大 约 10 秒 钟 后 ,开始 看 到 第 一 个 状态 输出 集合 。 再 等 待 10 秒 钟 看 下 一 个 输出 集合 ， 此 时 会 看 
到 整个 被 更 新 的 状态 : 
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Time: 1416080440000 ms 
(Janet, (2,10.98)) 

(Frank, (1,5.49)) 

(James, (2,12.98)) 

(Malinda, (1,9.99)) 

(Elaine, (3,29.97)) 

(Gary, (2,12.98)) 

(Miguel, (3,20.47)) 

(Saul, (1,5.49)) 

(Manuela, (2,18.939999999999998)) 
(Eric,(2,18.939999999999998)) 


Time: 1416080441000 ms 
(Janet, (6,34.94)) 

(Juan, (4,33.92)) 

(Frank, (2,14.44)) 

(James, (7,48.93000000000001)) 
(Malinda, (1,9.99)) 

(Elaine, (7,61.89)) 

(Gary, (4,28.46)) 

(Michael, (1,8.95)) 

(Richard, (2,16.439999999999998)) 
(Miguel, (5,35.95)) 


可 以 看 到 每 个 用 户 的 购买 数量 和 总 收入 按 批 相 加 了 。 


>» 现在 ， 看 看 是 否 可 以 应 用 这 个 例子 来 使 用 Spark Streaming 的 winadow 函 数 。 
QQ 例如 ， 可 以 对 每 个 用 户 以 30 秒 作为 滑动 窗口 计算 上 一 分 钟 相似 的 统计 值 。 


10.4 使 用 Spark Streaming 进行 在 线 学 习 


如 前 所 示 ， 使 用 Spark Streaming 与 我 们 操作 RDD 的 方式 很 接近 ， 处 理 数 据 流 也 变 得 简单 了 。 
使 用 Spark 的 流 处 理 元 素 结合 MLlib 的 基于 SGD 的 在 线 学 习 能 力 ， 可 以 创建 实时 的 机 器 学 习 模 型 ， 
当 数 据 流 到 达 时 实时 更 新 学 习 模型 。 


10.4.1 流 回 归 


Spark 在 StreamingLinearAlgorithm 类 中 提供 了 内 建 的 流 式 机 器 学 习 模 型 。 当 前 只 实现 了 
线性 回归 ( streamingLinearRegressionWithSGD )， 未 来 的 版 本 将 包含 分 类 。 
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流 回归 模型 提供 两 个 方法 。 


口 trainon: 这 个 方法 接收 DStream[LabeledPoint] 作 为 参数 ， 参 数 告诉 模型 在 每 一 个 
输入 的 DStream 上 训练 模型 。 可 以 被 调用 多 次 在 不 同 的 流 上 训练 。 

口 predicton: 这 个 方法 接收 DStream[LabeledPoint] 作 为 参数 ， 参 数 告 诉 模型 对 输入 
的 DStream 做 出 预测 ， 返 回 一 个 新 的 DStream[Double] ， 包 含 模型 的 预测 结果 。 


流 回 归 模 型 在 后 台 使 用 foreachRDD 和 map 来 完成 上 述 操作 。 同 时 ,该 模型 也 在 每 个 批 次 后 更 新 
模型 变量 并 暴露 出 最 近 训练 的 模型 ， 允 许 我 们 在 其 他 应 用 中 使 用 这 个 模型 或 者 把 模型 保存 到 外 部 。 

和 标准 的 批量 回归 一 样 , 流 回归 模型 的 步 长 和 迭代 次 数 可 以 通过 参数 配置 , 使 用 的 模型 类 相 
同 。 我 们 同样 可 以 设置 初始 化 模型 权重 向 量 。 

第 一 次 训练 模型 , 可 以 设置 初始 化 权重 为 零 向 量 或 者 随机 的 向 量 ,， 或 者 从 一 个 离线 训练 的 结 
果 加 载 最 近 的 模型 。 可 以 周期 性 地 把 模型 保存 到 外 部 系统 , 并 且 使 用 最 近 的 模型 状态 作为 开始 点 
( 例如， 在 一 个 节点 或 者 应 用 失败 的 情况 下 重启 )。 


10.4.2 一 个 简单 的 流 回 归程 序 

为 了 演示 流 回 归 , 我 们 将 创建 一 个 和 之 前 一 个 示例 类 似 的 例子 , 之 前 的 示例 使 用 的 是 模拟 数 
据 。 我 们 将 写 一 个 生成 器 程序 来 生成 随机 的 特征 向 量 和 目标 变量 , 给 定 固定 的 已 知 权重 向 量 并 把 
训练 例子 写 人 网 络 流 。 

我 们 的 消费 者 程序 将 会 运行 流 回归 模型 , 训练 ,然后 测试 模拟 数据 流 。 第 一 个 示例 中 ,消费 
者 将 简单 地 打印 它 的 预测 结 

1. 创建 流 数据 生成 器 

数据 生成 器 的 运行 方式 与 活动 生成 器 类 似 。 记 得 第 5 章 介 绍 过 ， 一 个 线性 模型 是 一 个 权 值 向 
量 w 和 一 个 特征 向 量 x 的 线性 组 合 (或 者 是 向 量 的 点 积 w7x )。 我 们 的 生成 器 将 使 用 固定 的 已 知 的 
权重 向 量 和 随机 生成 的 特征 向 量 产生 合成 的 数据 。 这 个 数据 完全 符合 线性 回归 模型 公式 , 所 以 预 
计 我 们 的 回归 模型 将 会 很 容易 学 习 到 正确 的 权重 向 量 。 

首先 ， 设 定 每 秒 处 理 活动 的 最 大 数目 ( 如 100 ) 和 特征 向 量 中 的 特征 数量 ( 也 是 100 ): 


/** 
* 随机 线性 回归 数据 的 生成 器 
Wi 


object StreamingModelProducer { 
import breeze.1inalg. 


def main(args: Array[String]) { 


// 每 秒 处 理 活动 的 最 大 数目 
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val MaxEvents = 100 
val NumFeatures = 100 


val random = new Random() 
generateRandomArray 消 数 创建 一 个 大 小 确定 的 数组 ， 其 中 的 元 素 通 过 正 态 分 布 随 机 生 
成 。 我 们 将 使 用 这 个 函数 初步 生成 已 知 的 权重 向 量 w， 它 在 生成 器 的 整个 生命 周期 中 固定 。 我 们 
还 将 创建 一 个 随机 的 偏 移 值 ,也 将 被 固定 。 权 重 向 量 和 偏 移 值 将 会 被 用 来 生成 流 中 的 每 一 个 数据 : 


/xx 生成 服从 正 态 分 布 的 稠密 向 量 的 函数 */ 
def generateRandomArray (n: Int) = Array.tabpulate(n) (_ => 
random.nextGaussian()) 


// 生成 一 个 确定 的 随机 模型 权重 向 量 
val w = new DenseVector (generateRandomArray (NumFeatures)) 
val intercept = random.nextGaussian() * 10 


我 们 也 需要 一 个 函数 来 生成 确定 数量 的 随机 数据 点 。 每 一 个 活动 包含 一 个 随机 的 特征 向 量 ， 
和 通过 计算 已 知 向 量 及 随机 特征 点 积 并 加 上 偏 移 后 的 值 对 应 的 目标 值 : 


/** 生成 一 些 随 机 数据 事件 */ 
def generateNoisyData(n: Int) = { 
(1 to n).map { i => 
val x = new DenseVector (generateRandomArray (NumFeatures)) 


val y: Double = w.dot (x) 
val noisy = y + intercept 
(LS 立 ) 


} 
最 后 , 使 用 和 之 前 生成 器 类 似 的 代码 来 初始 化 一 个 网 络 连接 , 并 以 文本 形式 每 秒 发 送 随 机 数 
量 〈 在 0 到 100 之 间 ) 的 数据 点 : 
// 创建 网 络 生成 器 


val listener = new ServerSocket (9999 ) 
println("Listening on port: 9999") 


while (true) { 
val socket = listener.accept() 
new Thread() { 
override def run = { 
println("Got client connected from: " + 
socket .getInetAddress) 
val out = new PrintWriter (socket.getOutputStream(), 


true) 


while (true) { 
Thread.sleep(1000) 
val num = random.nextInt (MaxEvents) 
val data = generateNoisyData (num) 
data.foreach { case (y, x) => 
val xStr = x.data.mkString(",") 
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val eventStr = S"SyNLtSXStLL" 
out .write(eventstr) 
out .write("\n") 
} 
out.flush() 
println(s"Created Snum events...") 
} 
socket .close() 
} 
} .Statt () 
} 


} 


你 可 以 通过 使 用 sbt run 来 说 启动 生成 器 ， 通 过 选择 来 执行 StreamingModelProducer 主 
方法 。 这 将 导致 下 面 的 输出 ， 这 表明 生成 器 程序 在 等 待 我 们 的 流 回归 应 用 的 连接 : 


[info] Running StreamingModelProducer 
Listening on port: 9999 


2. 创建 流 回 归 模 型 


下 一 步 ， 我 们 将 创建 流 回 归 模 型 程序 。 基 本 的 输出 和 设置 和 之 前 的 流 分 析 的 例子 相同 : 


/** 
* 一 个 简单 的 线性 回归 计算 出 每 个 批 次 的 预测 值 
4 


object SimpleStreamingModel { 
def main(args: Array[String]) { 


val ssc = new StreamingContext ("local{[2]", "First Streaming App", Seconds(10)) 
val stream = ssc.socketTextStream("localhost", 9999) 


这 里 将 建立 大 量 的 特征 来 匹配 输入 的 流 数据 记录 的 特征 ,我 们 将 创建 一 个 零 向 量 来 作为 流 回 
归 模 型 的 初始 权 值 向 量 。 最 后 ， 我 们 将 选择 迭代 次 数 和 步 长 : 


val NumFeatures = 100 
val ZeroVector = DenseVector .zeros [Double]l (NumFeatures) 
val model = new StreamingLinearRegressionWithSsSGD() 
.SetInitialWweights (Vectors.dense (zeroVector.data)) 
.SetNumIterations (1) 
.SetStepSize(0.01) 


然后 , 再 次 使 用 map 函 数 把 DStream 中 字符 串 表示 的 每 个 记录 转换 成 LapelPoint 实 例 , 包含 
目标 值 和 特征 向 量 : 


// 创建 一 个 标签 点 的 流 
val labeledStream = stream.map { event => 
val split = event.split("\t") 
val y = split(0).toDouble 
val features = split(1).split(",").map(_.toDouble) 
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LabeledPoint (label = y, features = Vectors.dense (features)) 


} 


最 后 一 步 是 通知 模型 在 转换 后 的 DStream 上 做 训练 , 以 及 测试 并 输出 DStream 每 一 批 数 据 前 几 
个 元 素 的 预测 值 : 
// 在 流 上 训练 测试 模型 ， 并 打印 预测 结果 作为 展示 


model.trainOon (labeledStream) 
model .predictOn(labeledStream) .print() 


ssc.start () 
ssc.awaitTermination () 


因为 使 用 了 与 批 处 理 中 MLlib 一 样 的 模型 类 处 理 流 , 我 们 可 以 选择 是 否 在 每 一 
个 批 次 的 训练 数据 ( 就 是 多 个 LabeledPoint 实 例 构 成 的 RDD ) 上 执行 多 次 迭代 。 
yl 这 里 ， 我 们 将 设置 选 代 次 数 为 1 来 单纯 模拟 在 线 学 习 。 实 践 中 ， 你 可 以 设置 
更 多 的 和 迭代 次 数 , 但 每 个 批 次 的 训练 时 间 将 因此 增加 。 如 果 每 个 批 次 的 训练 时 间 
大 大 高 于 训练 间隔 ， 流 模型 将 会 滞后 于 数据 流 的 速度 。 
可 以 通过 降低 迭代 次 数 、 增 加 批量 处 理 间 隔 ， 或 者 增加 Spark 工 作 节点 以 增 
加 流 计 算 程序 的 并 行 度 来 解决 这 个 问题 


现在 ， 准 备 在 第 二 个 终端 窗口 中 使 用 sbt run 运 行 SimpleStreamingModel， 正 如 运行 生 
成 器 一 样 〈 记 住 使 用 SBT 来 执行 正确 的 主 方法 )。 一 旦 流 处 理 程序 开始 运行 ， 就 应 该 在 生成 器 控 
制 台 看 到 下 面 的 输出 : 


Got client connected from: /127.0.0.1 


Created 10 events... 
Created 83 events... 
Created 75 events... 


大 约 10 秒 钟 后 ， 应 该 开始 看 到 模型 预测 结果 开始 出 现在 流 应 用 程序 控制 台 : 


14/11/16 14:54:00 INFO StreamingLinearRegressionWithSGD: Model 
updated at time 1416142440000 ms 

14/11/16 14:54:00 INFO StreamingLinearRegressionWithSsSGD: Current 
model: weights, [0.05160959387864821,0.05122747155689144,- 
0.17224086785756998,0.05822993392274008,0.07848094246845688,- 
0.1298315806501979,0.006059323642394124，, 


14/11/16 14:54:00 INFO JobScheduler: Finished job streaming job 
1416142440000 ms.0 from job set of time 1416142440000 ms 
14/11/16 14:54:00 INFO JobScheduler: Starting job streaming job 
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1416142440000 ms.1 from job set of time 1416142440000 ms 

14/11/16 14:54:00 INFO SparkContext : Starting job: take at 
DStream.scala:608 

14/11/16 14:54:00 INFO DAGScheduler: Got job 3 (take at 
DStream.scala:608) with 1 output partitions (allowLocal=true) 
14/11/16 14:54:00 INFO DAGScheduler: Final stage: Stage 3(take at 
DStream.scala:608) 

14/11/16 14:54:00 INFO DAGScheduler: Parents of final stage: List() 
14/11/16 14:54:00 INFO DAGScheduler: Missing parents: List() 
14/11/16 14:54:00 INFO DAGScheduler: Computing the requested 
partition locally 

14/11/16 14:54:00 INFO SparkContext: Job finished: take at 
DStream.scala:608, took 0.014064 s 


Time: 1416142440000 ms 
-2.0851430248312526 
4.609405228401022 
2.817934589675725 
3.3526557917118813 
4.624236379848475 
-2.3509098272485156 
-0.7228551577759544 
2.914231548990703 
0.896926579927631 
1.1968162940541283 


要 喜 ! 你 已 经 创建 了 你 第 一 个 流 式 在 线 学 习 模型 ! 
你 可 以 在 每 个 终端 窗口 按 Ctrl + C 关 掉 流 应 用 ( 或 者 是 否 关 掉 生 成 器 )。 


10.4.3” 流 K- 均 值 


MLlib 还 包含 一 个 流 处 理 版 本 的 K- 均 值 附 类， 名 为 StreamingKMeans。 这 是 一 个 小 批量 K- 
均值 算法 扩展 后 的 模型 。 每 一 批 数据 到 达 后 , 模型 都 会 随 着 之 前 批 次 计算 得 到 的 聚 类 中 心 和 当前 
批 次 计算 得 到 的 聚 类 中 心 来 更 新 模型 。 

StreamingKk eans 支 持 一 个 遗忘 度 参 数 alpha (使 用 setDecayFactor 方 法 来 设置 ), 它 控 


制 模型 对 新 数据 赋 权 值 的 激进 程度 。 一 个 为 0 的 alpha 意 味 着 模型 仅 会 使 用 新 数据 ， 而 当 alpha 
为 时， 意味 着 要 使 用 从 应 用 开始 后 的 所 有 数据 。 


这 里 我 们 不 会 介绍 更 多 关于 流 式 K- 均 值 内 容 ( Spark 文档 http:/spark.apache.org/docs/latest/ 
mllib-clustering.html#streamingclustering 包 含 了 更 多 细节 和 例子 ), 除 了 可 以 尝试 使 用 之 前 的 流 回 归 数 
据 生 成 带 为 StreamingkMeans 模 型 生成 输入 数据 ， 还 可 以 采用 流 回 归 应 用 来 使 用 StreamingkMeans。 


可 以 先 选择 一 个 分 类 数目 K 来 创建 聚 类 数据 生成 器 ， 然 后 通过 下 面 的 步骤 生成 数据 点 。 
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口 随机 选择 一 个 聚 类 下 标 。 
口 对 每 个 聚 类 使 用 特定 的 正 态 分 布 参数 生成 随机 向 量 。 也 就 是 说 K 个 聚 类 的 每 个 类 将 会 有 
一 个 均值 和 方差 参数 ， 使 用 与 之 前 generateRangdomArray 晴 数 类 似 的 方法 生成 随机 的 


向 量 。 


这 样 ， 属 于 相同 聚 类 的 点 都 服从 相同 的 分 布 , 所 以 我 们 的 流 式 聚 类 模型 一 段 时 间 后 应 该 能 得 
到 正确 的 聚 类 中 心 。 


10.5 “在 线 模型 评估 


机 器 学 习 和 Spark Streaming 组 合 起 来 有 很 多 潜在 的 应 用 场景 。 包 括 保证 模型 和 模型 集合 在 新 
的 训练 数据 上 同步 更 新 ， 因 而 使 模型 能 很 快 适应 上 下 文 场景 的 改变 。 


另 一 个 有 用 的 实例 就 是 以 在 线 方 式 跟 踪 和 比较 多 个 模型 的 性 能 ， 甚 至 可 能 实时 执行 模型 选 
择 ， 从 而 总 是 用 性 能 最 好 的 模型 来 生成 在 线 数据 的 预测 结果 。 

还 可 以 用 来 对 模型 做 实时 “A/B 测 试 ”, 或 者 和 前 沿 的 在 线 选择 和 学 习 技 术 组 合 , 例如 贝 叶 斯 
更 新 方法 和 Bandit 算 法 。 也 可 以 用 来 在 线 模拟 模型 的 性 能 ， 如 果 因 为 某 些 原因 性 能 降低 也 可 以 及 
时 响应 和 调整 。 

本 节 简 单 地 扩展 一 下 流 回 归 的 例子 。 在 这 个 例子 中 ， 随 着 越 来 越 多 的 数据 进入 输入 流 ， 我们 
将 比较 两 个 不 同 参数 模型 的 进化 错误 率 。 


使 用 Spark Streaming 比 较 模 型 性 能 


正如 我 们 以 前 在 生成 器 应 用 中 使 用 权重 向 量 和 偏 移 值 来 生成 训练 数据 , 我 们 希望 最 后 模型 能 
学 到 这 些 权重 向 量 (这 个 例子 中 我 们 不 会 加 入 随机 噪音 )。 


因此 ， 随 着 处 理 的 数据 越 来 越 多 ,模型 错误 率 会 越 来 越 低 。 我 们 也 能 使 用 标准 的 回归 错误 指 
标 来 比较 多 个 模型 的 性 能 。 


在 这 个 例子 中 , 我 们 将 使 用 不 同 的 学 习 率 来 创建 两 个 模型 ， 并 在 相同 的 数据 流 上 训练 。 我 们 
将 对 每 个 模型 做 预测 ， 并 对 每 个 批 次 计算 均 方 误 差 ( MSE ) 和 根 均 方 误差 (RMSE ) 指标 。 


新 的 监控 流 模型 代码 如 下 : 


/** 
* 一 个 流 式 回 归 模 型 用 来 比较 这 两 个 模型 的 性 能 ， 输 出 每 个 批 次 计算 后 的 性 能 统计 
4 


object MonitoringStreamingModel { 
import org.apache.spark.SparkContext._ 
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def main(args: Array[String]) { 


val ssc = new StreamingContext ("local[2]", "First Streaming 
App", Seconds(10)) 
val stream = ssc.socketTextStream("localhost", 9999) 


val NumFeatures = 100 

val ZeroVector = DenseVector .zeros [Double]l (NumFeatures) 

val modell = new StreamingLinearRegressionWithSsSGD() 
.SetInitialWeights (Vectors.dense (zeroVector.data)) 
.SetNumIterations(1) 
.SetStepSize(0.01) 


val model2 = new StreamingLinearRegressionWithSsSGD() 
.SetInitialWeights (Vectors.dense (zeroVector.data)) 
.SetNumIterations(1) 
.SetStepSize(1.0) 

// 创建 一 个 标签 点 的 流 

val labeledStream = stream.map { event => 
val split = event.split("\t") 
val y = split(0).toDouble 
val features = split(1).split(",").map(_.toDouble) 
LabeledPoint (label = y, features = Vectors.dense (features)) 


} 
注意 大 部 分 前 面 的 安装 代码 和 我 们 的 简单 流 模型 例子 一 样 。 不 同 的 是 ， 我 们 创建 了 两 个 


streamingLinearRegressionWithSGD 的 实例 : 一 个 学 习 率 是 0.01， 另 一 个 学 习 率 是 1.0。 


然后 ， 我 们 将 在 输入 流 上 训练 每 一 个 模型 ， 并 使 用 Spark Streaming 的 transform 函 数 ， 为 此 
创建 一 个 新 的 包含 每 个 模型 错误 率 的 DStream: 


// 在 同一 个 流 上 训练 这 两 个 模型 
modell.trainOon (labeledStream) 
model2.trainOon (labeledStream) 
// 使 用 转换 算 子 创建 包含 模型 错误 率 的 流 
val predsAndTrue = labeledStream.transform { rdd => 
val latest1 = modell.latestModel () 
val latest2 = model2.latestModel () 
rdd.map { point => 
val predl = latestl1.predict (point.features) 
val pred2 = latest2.predict (point.features) 
(predl - point.label, pred2 - point.1label) 


< 
Wa 


最 后 ， 对 每 个 模型 使 用 foreachRDD 来 计算 MSE 和 RMSE 指 标 ， 并 将 结果 输出 到 控 仙 


// 对 于 每 个 模型 每 个 批 次 ， 输 出 MSE 和 RMSE 统 计 值 
predsAndTrue.foreachRDD { (rdd, time) => 
val msel = rdd.map { case (errl, err2) => errl * errl 
} .mean () 
val rmsel = math.sqart (msel) 
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val mse2 = rdd.map { case (errl, err2) => err2 * err2 
} .mean() 
val rmse2 = math.sqart (mse2) 
printlnt( 
Sum 


""".stripMargin) 
println(s"MSE current batch: Model 1: $msel; Model 2: 
Smse2") 
println(s"RMSE current batch: Model 1: S$rmsel; Model 2: 
Srmse2") 
primnt lr( te Yny 


} 


ssc.start () 
ssc.awaitTermination () 


} 


如 果 你 之 前 关 掉 了 产生 器 ， 执 行 sbt run 并 选择 streamingModelProducer 重 新 启动 。 生 


成 器 再 次 运行 后 ， 在 第 二 个 终端 窗口 执行 sbt _ run 并 且 选 择 主 类 为 MonitoringStreaming- 
Modelo 


你 将 看 到 流 处 理 程序 启动 ， 约 10 秒 后 第 一 批 数 据 处 理 完毕 ， 输 出 类 似 下 面 这 样 : 


14/11/16 14:56:11 INFO SparkContext: Job finished: mean at 
StreamingModel .scala:159, took 0.09122 s 


Time: 1416142570000 ms 


MSE current batch: Model 1: 97.9475827857361; Model 2: 
97.9475827857361 


RMSE current batch: Model 1: 9.896847113385965; Model 2: 
9.896847113385965 


同样 从 初始 化 权 值 向 量 开始 , 我 们 看 到 它们 对 第 一 批 数据 做 了 完全 相同 的 预测 , 即 有 相同 的 


如 果 让 程序 运行 几 分 钟 ， 最 后 应 该 看 到 其 中 一 个 模型 开始 收敛 ,错误 率 越 来 越 低 ， 而 男 一 个 
模型 因为 过 高 的 学 习 率 同 相 对 较 差 。 


14/11/16 14:57:30 INFO SparkContext: Job finished: mean at 
StreamingModel .scala:159, took 0.069175 s 
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Time: 1416142650000 ms 


MSE current batch: Model 1: 75.54543031658632; Model 2: 
10318.213926882852 
RMSE current batch: Model 1: 8.691687426304878; Model 2: 
101.57860959317593 


如 果 让 程序 运行 更 长 时 间 ， 应 该 看 到 第 一 个 模型 的 错误 率 会 变 得 


很 小 : 
14/11/16 17:27:00 INFO SparkContext : Job finished: mean at 
StreamingModel.scala:159, took 0.037856 s 
Time: 1416151620000 ms 
MSE current batch: Model 1: 6.551475362521364; Model 2: 
1.057088005456417E26 
RMSE current batch: Model 1: 2.559584998104451; Model 2: 
1.0281478519436867E13 
MU 由 业 和 > D4 4 人 A 
. 因为 数据 随机 生成 ,你 看 到 的 结果 可 能 不 一 样 , 但 总 体 趋 势 应 该 一 致 : 第 一 
批 时 ， 模 型 有 相同 的 错误 率 ， 然 后 第 一 个 模型 开始 产生 较 小 的 错误 率 。 


10.6 ”小结 


在 这 一 章 中 ， 我 们 讨论 了 在 线 机 器 学 习 和 流 数据 分 析 的 知识 点 。 首 先 介 绍 了 Spark Streaming 


库 和 API， 使 用 和 RDD 相 似 的 函数 来 进行 连续 的 数据 流 处 理 ， 实 现 了 流 分 析 应 有 


示 了 它 的 功能 。 


的 一 个 例子 并 演 


最 后 ， 我 们 在 流 式 应 用 中 使 用 了 MLlib 的 流 回 归 模 型 ， 在 输入 特征 向 量 流 上 计算 和 比较 了 模 


型 的 性 能 。 
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图 灵 社 区 ITuring.cn 


最 前 沿 的 IT 类 电子 书 


发 售 平台 


电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同 行 还 在 犹豫 稍 律 的 时 候 ， 图 灵 社 区 已 经 采取 实际 行 
动 拥抱 这 个 出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 IT 类 出 版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 
DRM-free 的 阅读 体验 : 在 线 阅 读 和 PDF。 

相 比 纸 质 书 ， 电 子 书 具有 许多 明显 的 优势 。 它 不 仅 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 
片 《 即 使 有 的 书 纸 质 版 是 黑白 印刷 的 ) 。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 

图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 
网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 
以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 往 翻译 版 技术 书 “ 出 版 即 过 时 ”的 缺 居 。 同 


时 ,敏捷 出 版 使 得 作 、 译 、 编 、 读 
书 出 版 的 质量 。 


的 交流 更 为 方便 ， 可 以 提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 


优惠 提示 : 现在 购买 电子 书 ， 读 者 将 获 赠 书 款 20% 的 社区 银子 ， 可 用 于 兑换 纸 质 样 书 。 


最 方便 的 开放 出 版 平 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 版 和 开源 出 版 的 梦想 。 利 用 “合集 ” 功 


人 
日 


? 


能 
你 就 能 联合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 。( 收费 形式 须 经 过 


图 灵 社 区 立项 评审 。 ) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 的 意愿 ， 图 灵 社 区 就 能 帮助 你 实 
这 个 梦想 。 成 熟 的 书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 


图 灵 社 区 引进 出 版 的 外 文 图 书 


， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 你 有 意 翻译 哪 本 图 书 ， 欢 迎 


你 来 社区 申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 
翻译 工作 ， 是 需要 有 坚强 的 角力 的 。 


最 直接 的 读者 交流 平 


人 
日 


在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 误 、 发 表 评论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 


员 和 其 他 读者 进行 交流 互动 。 提 交 昌 


误 还 能 够 获 赠 社区 银子 。 


你 可 以 积极 参与 社区 经 常 开 展 的 访谈 、 乐 译 、 评 选 等 多 种 活动 ， 遍 取 积 分 和 银子 ， 积 累 个 人 声望 。 
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8 ,4 
六 读 
> Java 性 能 优化 圣经 ! 
> Java 之 父 重 磅 推荐 ! 


Java 性 能 优化 圣经 ! Java 之 父 重 磅 推荐 | 
| AaVa 性 能 优 化 《Java 性 能 优化 权威 指南 》 由 曾 任 职 于 Oracle/Sun 的 
权威 指南 性 能 优化 专家 编写 ， 系 统 而 详细 地 讲解 了 性 能 优化 的 各 
sa 个 方面 ， 帮 助 你 学 习 Java 虚拟 机 的 基本 原理 、 掌 握 一 些 
"es 
监控 Java 程序 性 能 的 工具 ， 从 而 快速 找到 程序 中 的 性 能 
瓶 须 ， 并 有 效 改 善 程序 的 运行 性 能 。 
Java 性 能 优化 的 任何 问题 ， 都 可 以 从 本 书 中 找到 答 
从 | 


多 刘 迁 展 


四 员 程 序 设计 只 书 


Java 性 能 优化 权威 指南 
书号 : 978=7=115=34297=3 
定价 : 109.00 元 


鸣 Emmamsatua IC ammaatus SAMs 


[| Ph ners 
a Sams Teach Yourself Regular 
ey Expressions in 10 Minutes 


Week 1 


七 周 七 


借助 Java、Go 等 多 种 语言 的 竺 长 
深度 吕 怕 所 有 主流 并 发 坊 福 机 虹 


同 中 a a A 
七 周 七 并 发 模型 


书号 : 978-7-115-38606-9 
定价 : 49.00 元 


程序 员 思 维修 炼 


(修订 版 ) 


一 本 让 你 重新 认识 大 脑 、 认 知 自己 的 书 


软件 的 设计 与 部 


通过 实例 探讨 如 何 构建 半 键 、 务 立 的 钦 件 架构 


发 布 ! 软件 的 设计 与 部 署 
书号 : 978-7-115-38045-6 
定价 : 49.00 元 


Emeneeitus 


高 效 程 序 员 的 45 个 习惯 
敏捷 开发 修炼 之 道 
(修订 版 ) 


习惯 改变 行为 行为 决定 命运 。 


程序 员 思维 修炼 ( 修订 版 ) 
书号 : 978-7-115-37493-6 
定价 : 49.00 元 


高 效 程序 员 的 45 个 习惯 : 敏捷 开发 
修炼 之 道 (修订 版 ) 

书号 : 978-7-115-37036-5 
定价 : 45.00 元 


正则 表达 式 
必 知 必 会 


(修订 版 ) 


1 BonFora HW 
CP 


全 球技 术 人 员 正 则 表达 式 入 门 首选 ,水中 实战 需求 
让 你 在 通 双 的 培 上 名 可 以 浊 坟 各 和 


正则 表达 式 必 知 必 会 ( 修订 版 ) 
书号 : 978-7-115-37799-9 
定价 : 29.00 元 


The Healthy Programmer 


程序 员 健康 指南 


[天 Joe Kutner 要 昧 9 于 这 


机 
程序 员 健康 指南 
书号 : 978-7-115-36716-7 
定价 : 39.00 元 
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关注 图 灵 教育 关注 图 灵 社 区 
iTuring.cn 


征 线 出 版 电子 书 《 码 农 》 杂 志 图 灵 访 谈 …… 


全 


QQ 联系 我 们 


和 灵 读 者 官方 群 I: 218139230 
和 灵 读 者 官方 群 I[: 164939616 


微 博 联系 我 们 


官方 账号 ， @ 图 灵 教 育 @ 图 灵 社 区 @ 图 灵 新 知 
市 场合 作 : @ 图 灵 责 野 

写作 本 版 书 : @ 图 灵 小 花 @ 图 灵 张 起 

翻译 英文 书 ，@ 朱 况 ituring @ 楼 伟 珊 
翻译 日 文书 或 文章 ，@ 图 灵 乐 元 

翻译 韩文 书 ，@ 图 灵 陈 曦 
电子 书 合作 : @hi_jeanne 

图 灵 访 谈 /《 码 农 》 杂 志 : @ 李 有 盼 ituring 


加 入 我 们 ，@ 王 子 是 好 人 


% 


微 信 联 系 我 们 


turingbooks ituring_interview 


Apache Spark 是 一 个 分 布 式 计 算 框架 ， 专 为 满足 低 延 迟 任 
务 和 内 存 数 据 存 储 的 需求 而 优化 。 现 有 并 行 计算 框架 中 ， 鲜 有 
能 兼顾 速度 、 可 扩展 性 、 内 存 处 理 以 及 容错 性 ， 同 时 还 能 简化 
编程 ， 提 供 灵 活 、 表 达 力 丰富 的 强大 API 的 ，Apache Spark 就 
是 这 样 一 个 难得 的 框架 。 

本 书 介绍 了 Spark 的 基础 知识 ， 从 利用 Spark APl 来 载 入 和 
处 理 数 据 ， 到 将 数据 作为 多 种 机 器 学 习 模型 的 输入 。 此 外 还 通 
过 详细 的 例子 和 现实 应 用 讲解 了 常见 的 机 器 学 习 模型 ， 包 括 推 
荐 系统 、 分 类 、 回 归 、 聚 类 和 降 维 。 最 后 还 介绍 了 一 些 高 阶 内 容 ， 如 大 规模 文本 数据 的 处 理 , 以 及 Spark Streaming 
下 的 在 线 机 器 学 习 和 模型 评估 方法 。 

如 果 你 是 一 名 Scala、Java 或 Python 开 发 者 ， 对 机 器 学 习 和 数据 分 析 感 兴趣 ， 并 想 借 助 Spark 框 架 来 实现 常 
见 机 器 学 习 技 术 的 大 规模 应 用 ， 那 么 本 书 便 是 为 你 而 写 。 最 好 有 Spark 的 基础 知识 ， 但 并 不 要 求 你 有 实践 经 验 。 


通过 学 习 本 书 ， 你 将 能 够 : 
用 Scala、Java 或 Python 语言 编写 你 的 第 一 个 Spark 程 序 ; 
在 你 的 本 机 和 Amazon EC2 上 创建 和 配置 Spark 开 发 环境 ; 
获取 公开 的 机 器 学 习 数 据 集 ， 以 及 使 用 Spark 对 数据 进行 载 入 、 处 理 、 清 理 和 转换 ; 
漠 助 Spark 机 器 学 习 库 ， 利 用 协同 过 滤 、 分 类 、 回 归 、 桶 类 和 降 维 等 常见 的 机 器 学 习 模型 来 编写 程序 ; 
编写 Spark 函 数 来 评估 你 的 机 器 学 习 模型 的 性 能 ; 
了 解 大 规模 文本 数据 的 处 理 方法 ， 包 括 特征 提取 和 将 文本 数据 作为 机 器 学 习 模 型 的 输入 ; 
探索 在 线 学 习 方 法 ， 利 用 Spark Streaming 来 进行 在 线 学 习 和 模型 评估 。 


TSBN 978=7=115=39983=0 
本 


广 


a ISBN 978-7-115-39983-0 
分 类 建议 计算 机 /数据 分 析 定价 : 59.00 元 


mm 
看 完了 
如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 者 协助 
答疑 。 也 可 访问 图 灵 社 区 ， 人 参与 本 书 讨论 。 
如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : ebook@turingbook.com。 
在 这 里 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 :电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 :ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 :turingbooks 
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